Wie teste / beweise ich, dass Daten null aufgeblasen sind?

9

Ich habe ein Problem, das meiner Meinung nach einfach sein sollte, aber ich kann es nicht ganz herausfinden. Ich betrachte die Samenbestäubung, ich habe Pflanzen (n = 36), die in Gruppen blühen, ich probiere 3 Blütengruppen von jeder Pflanze und 6 Samenkapseln von jeder Gruppe (insgesamt 18 Samenkapseln von jeder Pflanze). Eine Schote kann zwischen 0 und höchstens 4 Samen bestäubt haben. Die Daten werden also mit einer Obergrenze gezählt. Ich stelle fest, dass durchschnittlich ~ 10% der Samen bestäubt sind, aber irgendwo zwischen 1 und 30% bei einer bestimmten Pflanze, also über verteilte Daten, und natürlich fehlen 4 Cluster-Replikate bei 3 Pflanzen, also nicht perfekt symmetrisch .

Die Frage, die ich stelle, ist, ob diese Daten die Idee unterstützen, dass diese Pflanze Bestäuber für das Saatgut benötigt.

Ich stelle fest, dass die Verteilung für die Anzahl der Samen in einer Schote so aussieht, als gäbe es mehr 0 bestäubte Samenkapseln (6-9 Hülsen von 16) und mehr 3 und 4 bestäubte Samenkapseln (jeweils 2-4) als zuvor zu erwarten, wenn Samen in der Bevölkerung nur zufällig bestäubt wurden. Grundsätzlich denke ich, dass dies ein klassisches Beispiel für null aufgeblasene Daten ist. Zuerst besucht ein Insekt die Blume oder besucht sie überhaupt nicht (ein Nullgenerator) und wenn ja, bestäubt es 0-4 der Samen in einer anderen Verteilung. Die alternative Hypothese ist, dass die Pflanze teilweise selbstsüchtig ist und dann zu erwarten ist, dass jeder Samen die gleiche Wahrscheinlichkeit hat, bestäubt zu werden (diese Daten legen eine Wahrscheinlichkeit von ungefähr 0,1 nahe, was eine Wahrscheinlichkeit von 0,01 für zwei Samen in derselben Schote usw. bedeutet). .

Aber ich möchte einfach nur demonstrieren, dass die Daten am besten zu der einen oder anderen Verteilung passen, und nicht eine ZIP- oder ZINB-Datei für die Daten. Ich denke, bei jeder Methode, die ich verwende, sollte die tatsächliche Anzahl der bestäubten Samen und die Anzahl der auf jeder Pflanze entnommenen Schoten berücksichtigt werden. Das Beste, was ich mir ausgedacht habe, ist, eine Art Boot Strap-Sache zu machen, bei der ich die Anzahl der bestäubten Samen für eine bestimmte Pflanze zufällig der Anzahl der Samenkapseln zuordne, die ich probiert habe, dies 10.000 Mal mache und sehe, wie wahrscheinlich es ist Die experimentellen Daten für die gegebene Pflanze ergaben sich aus dieser zufälligen Verteilung.

Ich habe nur das Gefühl, dass es etwas gibt, das viel einfacher sein sollte als Brute-Force-Bootstrapping, aber nach Tagen des Denkens und Suchens gebe ich auf. Ich kann nicht einfach mit einer Poisson-Distribution vergleichen, weil es eine Obergrenze ist, es ist kein Binomial, weil ich die erwartete Distribution irgendwie zuerst generieren muss. Irgendwelche Gedanken? Und ich verwende R, daher wäre ein Ratschlag (insbesondere, wie man am elegantesten 10.000 zufällige Verteilungen von n Bällen in 16 Kisten erzeugt, die jeweils höchstens 4 Bälle enthalten können) sehr willkommen.

ADDED 9/07/2012 Zunächst einmal vielen Dank an Sie alle für all das Interesse und die Hilfe. Das Lesen der Antworten hat mich dazu gebracht, meine Frage ein wenig neu zu formulieren. Was ich sage ist, dass ich eine Hypothese habe (die ich im Moment als Null betrachte), dass Samen zufällig über Hülsen bestäubt werden, und meine alternative Hypothese ist, dass eine Samenschale mit mindestens 1 bestäubten Samen wahrscheinlicher ist mehrere bestäubte Samen haben, als dies nach einem zufälligen Verfahren zu erwarten wäre. Ich habe reale Daten von drei Werken als Beispiele bereitgestellt, um zu veranschaulichen, wovon ich spreche. Die erste Spalte gibt die Anzahl der bestäubten Samen in einer Schote an, die zweite Spalte gibt die Häufigkeit der Schoten mit dieser Samenanzahl an.

Pflanze 1 (insgesamt 3 Samen: 4% Bestäubung)

num.seeds :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

Pflanze 2 (insgesamt 19 Samen: 26% Bestäubung)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

Pflanze 3 (insgesamt 16 Samen: 22% Bestäubung)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

In Pflanze Nr. 1 wurden nur 3 Samen in 18 Schalen bestäubt, eine Schote hatte einen Samen und eine Schote hatte zwei Samen. Wenn Sie über einen Prozess nachdenken, bei dem zufällig ein Samen zu den Schalen hinzugefügt wird, gehen die ersten beiden Samen jeweils in ihre eigene Schote. Für den dritten Samen stehen jedoch 6 Plätze in Schalen zur Verfügung, die bereits einen Samen, aber 64 Punkte in den 16 Hülsen haben ohne Samen, daher beträgt die höchste Wahrscheinlichkeit einer Schote mit 2 Samen hier 6/64 = 0,094. Das ist ein bisschen niedrig, aber nicht wirklich extrem, also würde ich sagen, dass diese Pflanze der Hypothese einer zufälligen Bestäubung aller Samen mit einer Wahrscheinlichkeit von ~ 4% entspricht, dass eine Bestäubung auftritt. Aber Pflanze 2 sieht für mich viel extremer aus: 4 Hülsen sind vollständig bestäubt, aber 12 Hülsen haben nichts. Ich bin mir nicht ganz sicher, wie ich die Wahrscheinlichkeit dieser Verteilung direkt berechnen soll (daher meine Bootstrap-Idee), aber ich würde vermuten, dass die Wahrscheinlichkeit, dass diese Verteilung zufällig auftritt, wenn jeder Samen eine Bestäubungschance von ~ 25% hat, recht gering ist. Pflanze Nr. 3 Ich habe wirklich keine Ahnung, ich denke, es gibt mehr Nullen und Dreien, als man für eine zufällige Verteilung erwarten sollte, aber mein Bauchgefühl ist, dass diese Verteilung für diese Anzahl von Samen viel wahrscheinlicher ist als die Verteilung für Pflanze Nr. 2, und kann nicht so unwahrscheinlich sein. Aber natürlich möchte ich es sicher und über alle Pflanzen hinweg wissen. Ich denke, es gibt mehr Nullen und Dreien, als man für eine zufällige Verteilung erwarten sollte, aber mein Bauchgefühl ist, dass diese Verteilung für diese Anzahl von Samen viel wahrscheinlicher ist als die Verteilung für Pflanze Nr. 2 und möglicherweise nicht so unwahrscheinlich ist. Aber natürlich möchte ich es sicher und über alle Pflanzen hinweg wissen. Ich denke, es gibt mehr Nullen und Dreien, als man für eine zufällige Verteilung erwarten sollte, aber mein Bauchgefühl ist, dass diese Verteilung für diese Anzahl von Samen viel wahrscheinlicher ist als die Verteilung für Pflanze Nr. 2 und möglicherweise nicht so unwahrscheinlich ist. Aber natürlich möchte ich es sicher und über alle Pflanzen hinweg wissen.

Am Ende möchte ich eine Erklärung schreiben wie: „Die Verteilung der bestäubten Samen in Samenkapseln entspricht (oder passt nicht) der Hypothese, dass Pflanzen nicht einfach teilweise selbstkompatibel sind, sondern den Besuch eines Bestäubers erfordern, um den Samenansatz zu bewirken. (Ergebnisse des statistischen Tests). ” Dies ist wirklich nur ein Teil meines zukunftsweisenden Abschnitts, in dem ich darüber spreche, welche Experimente als nächstes durchgeführt werden sollen. Ich bin also nicht verzweifelt, dass dies das eine oder andere ist, aber ich möchte es, wenn möglich, selbst wissen. Wenn ich mit diesen Daten nicht das machen kann, was ich versuche, würde ich das auch gerne wissen!

Ich habe zunächst eine ziemlich breite Frage gestellt, da ich gespannt bin, ob es gute Tests gibt, um zu zeigen, ob Daten überhaupt in ein Modell ohne Inflation fließen sollten. Alle Beispiele, die ich gesehen habe, scheinen zu sagen: "Schauen Sie, hier gibt es viele Nullen, und es gibt eine vernünftige Erklärung dafür. Verwenden wir also ein Modell mit null Inflation." Das mache ich gerade in diesem Forum, aber ich hatte eine Erfahrung in meinem letzten Kapitel, in dem ich einen Poisson-glm für Zähldaten verwendet habe, und mein einer meiner Vorgesetzten sagte: „Nein, glms sind zu komplex und unnötig, diese Daten sollten gehe in eine Kontingenztabelle “und schickte mir dann einen Daten-Dump der massiven Kontingenztabelle, die durch ihr teures Statistikpaket generiert wurde und die drei signifikanten Stellen für alle meine Faktoren + Interaktionen die gleichen p-Werte gab !! Also versuche ich, die Statistiken klar und einfach zu halten. und stellen Sie sicher, dass ich sie gut genug verstehe, um meine Entscheidungen solide zu verteidigen, was ich derzeit nicht für ein Modell ohne Inflation tun kann. Ich habe sowohl ein Quasibinom (für ganze Pflanzen, um Pesudoreplicaiton loszuwerden) als auch ein gemischtes Modell für die obigen Daten verwendet, um Behandlungen zu vergleichen und meine wichtigsten experimentellen Fragen zu beantworten. Beide scheinen den gleichen Job zu machen, aber ich werde es auch tun Spielen Sie heute Abend mit ZINBs herum, um zu sehen, wie gut das funktioniert. Ich denke, wenn ich explizit nachweisen kann, dass diese Daten zunächst stark geclustert (oder null aufgeblasen) sind, und dann einen guten biologischen Grund dafür liefern kann, bin ich viel besser darauf eingestellt, anschließend einen ZINB herauszuziehen, als auf Vergleichen Sie einfach ein Modell mit einem quasibinomialen / gemischten Modell und argumentieren Sie, dass es bessere Ergebnisse liefert. Das sollte ich verwenden. was ich momentan nicht für ein Modell ohne Inflation tun kann. Ich habe sowohl ein Quasibinom (für ganze Pflanzen, um Pesudoreplicaiton loszuwerden) als auch ein gemischtes Modell für die obigen Daten verwendet, um Behandlungen zu vergleichen und meine wichtigsten experimentellen Fragen zu beantworten. Beide scheinen den gleichen Job zu machen, aber ich werde es auch tun Spielen Sie heute Abend mit ZINBs herum, um zu sehen, wie gut das funktioniert. Ich denke, wenn ich explizit nachweisen kann, dass diese Daten zunächst stark geclustert (oder null aufgeblasen) sind, und dann einen guten biologischen Grund dafür liefern kann, bin ich viel besser darauf eingestellt, anschließend einen ZINB herauszuziehen, als auf Vergleichen Sie einfach ein Modell mit einem quasibinomialen / gemischten Modell und argumentieren Sie, dass es bessere Ergebnisse liefert. Das sollte ich verwenden. was ich momentan nicht für ein Modell ohne Inflation tun kann. Ich habe sowohl ein Quasibinom (für ganze Pflanzen, um Pesudoreplicaiton loszuwerden) als auch ein gemischtes Modell für die obigen Daten verwendet, um Behandlungen zu vergleichen und meine wichtigsten experimentellen Fragen zu beantworten. Beide scheinen den gleichen Job zu machen, aber ich werde es auch tun Spielen Sie heute Abend mit ZINBs herum, um zu sehen, wie gut das funktioniert. Ich denke, wenn ich explizit nachweisen kann, dass diese Daten zunächst stark geclustert (oder null aufgeblasen) sind, und dann einen guten biologischen Grund dafür liefern kann, bin ich viel besser darauf eingestellt, anschließend einen ZINB herauszuziehen, als auf Vergleichen Sie einfach ein Modell mit einem quasibinomialen / gemischten Modell und argumentieren Sie, dass es bessere Ergebnisse liefert. Das sollte ich verwenden. Ich habe sowohl ein Quasibinom (für ganze Pflanzen, um Pesudoreplicaiton loszuwerden) als auch ein gemischtes Modell für die obigen Daten verwendet, um Behandlungen zu vergleichen und meine wichtigsten experimentellen Fragen zu beantworten. Beide scheinen den gleichen Job zu machen, aber ich werde es auch tun Spielen Sie heute Abend mit ZINBs herum, um zu sehen, wie gut das funktioniert. Ich denke, wenn ich explizit nachweisen kann, dass diese Daten zunächst stark geclustert (oder null aufgeblasen) sind, und dann einen guten biologischen Grund dafür liefern kann, bin ich viel besser darauf eingestellt, anschließend einen ZINB herauszuziehen, als auf Vergleichen Sie einfach ein Modell mit einem quasibinomialen / gemischten Modell und argumentieren Sie, dass es bessere Ergebnisse liefert. Das sollte ich verwenden. Ich habe sowohl ein Quasibinom (für ganze Pflanzen, um Pesudoreplicaiton loszuwerden) als auch ein gemischtes Modell für die obigen Daten verwendet, um Behandlungen zu vergleichen und meine wichtigsten experimentellen Fragen zu beantworten. Beide scheinen den gleichen Job zu machen, aber ich werde es auch tun Spielen Sie heute Abend mit ZINBs herum, um zu sehen, wie gut das funktioniert. Ich denke, wenn ich explizit nachweisen kann, dass diese Daten zunächst stark geclustert (oder null aufgeblasen) sind, und dann einen guten biologischen Grund dafür liefern kann, bin ich viel besser darauf eingestellt, anschließend einen ZINB herauszuziehen, als auf Vergleichen Sie einfach ein Modell mit einem quasibinomialen / gemischten Modell und argumentieren Sie, dass es bessere Ergebnisse liefert. Das sollte ich verwenden.

Aber ich möchte nicht zu sehr von meiner Hauptfrage ablenken. Wie kann ich feststellen, ob meine Daten aufgrund einer zufälligen Verteilung tatsächlich mehr als null aufgeblasen sind? In meinem Fall ist die Antwort darauf für mich von echtem Interesse, wobei der mögliche Vorteil der Modellbegründung ein Bonus ist.

Nochmals vielen Dank für all Ihre Zeit und Hilfe!

Prost, BWGIA

r distributions bootstrap zero-inflation

— BWGIA
quelle

Warum möchten Sie nicht das Null-Inflations-Binomialmodell anpassen?

— Atiretoo - Wiedereinstellung Monica

Ist die "partielle Selfing" -Hypothese ausschließlich für die "Bestäuber" -Hypothese? Wenn ja, dann wäre Ihr 2. Modell einfach ein Binomialmodell mit der Wahrscheinlichkeit p und der Größe = 4.

— Atiretoo - Wiedereinstellung Monica

5

Dies scheint mir ein relativ einfaches (nichtlineares) gemischtes Modell zu sein. Sie haben Samenkapseln, die in in Pflanzen verschachtelten Clustern verschachtelt sind, und Sie können in jeder Phase ein Binomialmodell mit zufälligen Effekten anpassen:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

oder mit Kovariaten, wenn Sie sie haben. Wenn sich die Blüten selbst bestäuben, kann es aufgrund der natürlichen Variabilität der Lebensfähigkeit der Pflanzen zu leichten Auswirkungen kommen. Wenn jedoch der größte Teil der Variabilität in der Reaktion von beispielsweise der Clustervariabilität abhängt, haben Sie einen stärkeren Hinweis auf die Bestäubung durch Insekten, die möglicherweise nur ausgewählte Cluster einer Pflanze besuchen. Idealerweise möchten Sie eine nicht parametrische Verteilung der zufälligen Effekte anstelle von Gauß: eine Punktmasse bei Null für keine Insektenbesuche und eine Punktmasse bei einem positiven Wert - dies ist im Wesentlichen das Mischungsmodell, über das Michael Chernick nachgedacht hat. Sie können dies mit dem GLLAMM Stata-Paket kombinieren . Ich wäre überrascht, wenn dies in R nicht möglich wäre.

Wahrscheinlich für ein sauberes Experiment möchten Sie die Pflanzen im Inneren oder zumindest an einem Ort ohne Insektenzugang haben und sehen, wie viele Samen bestäubt werden. Das würde wahrscheinlich alle Ihre Fragen methodisch strenger beantworten.

— StasK
quelle

Ich werde es versuchen, ich denke, es wird helfen, meine eigenen Fragen für mich selbst zu beantworten, aber nicht so sicher, wie es andere überzeugen wird. Mit dem zweiten Teil sind Sie genau richtig. Ich versuche darüber nachzudenken, wie diese Daten ein zukünftiges, gezielteres Experiment beeinflussen.

— BWGIA

1

Mir scheint, dass dies eine Mischungsverteilung für jedes einzelne Insekt ist. Mit der Wahrscheinlichkeit p landet das Insekt mit der Wahrscheinlichkeit 1-p, es landet und verteilt 0 bis 4 Samen. Wenn Sie jedoch keine Informationen darüber haben, ob das Insekt auf der Pflanze landet oder nicht, können Sie die beiden Möglichkeiten, 0 zu erhalten, nicht unterscheiden. Sie könnten also p die Wahrscheinlichkeit für 0 sein lassen und dann die multinomiale Verteilung (p1, p2, p3, p4) wobei pi die Wahrscheinlichkeit von i Samen ist, wenn das Insekt unter der Bedingung p1 + p2 + p3 + p4 = 1 bestäubt wird. Das Modell hat fünf Unbekannte p, p1, p2, p3, p4 mit der Bedingung 0 = 0 für jedes i. Mit genügend Daten sollten Sie in der Lage sein, diese Parameter möglicherweise mithilfe eines eingeschränkten Maximum-Likelihood-Ansatzes zu schätzen.

— Michael R. Chernick
quelle

Ich stimme zu, aber die Frage ist nicht, zu diesem Modell zu passen, sondern vorhergesagte Verteilungen unter zwei verschiedenen biologischen Hypothesen zu generieren. Vielleicht besteht die Antwort darin, ein ZIB und "ein anderes Modell", das der Selfing-Hypothese entspricht, anzupassen und diese zu vergleichen.

— Atiretoo - Wiedereinstellung Monica

@atiretoo liefert Ihnen das Modell nicht eine geschätzte Verteilung für die Anzahl der bestäubten Samen, die Sie mit Ihrer hypothetischen Verteilung vergleichen könnten?

— Michael R. Chernick

Einverstanden - wenn Sie die richtigen Modelle für die beiden Hypothesen haben.

— Atiretoo - Wiedereinstellung Monica

1

Dies ist eine Antwort auf den letzten Teil Ihrer Frage, wie Sie schnell die gewünschten Daten für die Bestäuberhypothese generieren können:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

Sie können auch rzibinom()im Paket VGAM verwenden. Obwohl ich nicht sicher bin, was Sie damit machen wollen. Sie haben 2 freie Parameter, p1 und p2, die geschätzt werden müssen. Warum nicht ein Null-Inflations-Binomialmodell verwenden, um sie aus den Daten zu schätzen?

Sie sollten sich das Paket VGAM ansehen, das unter anderem für ZIB-Modelle geeignet ist. Tatsächlich können Sie die erwartete Verteilung für eine ZIB über die VGAM-Funktion abrufen dzibinom(), mit der Sie Ihre beobachtete Verteilung vergleichen können, wenn Sie die Parameter für Besuch und Bestäubung kennen. Auch hier sollten Sie wirklich zum ZIB-Modell passen.

Wenn Ihre partielle Selfing-Hypothese ausschließlich für die Bestäubung von Insekten gilt, ist die erwartete Verteilung einfach binomisch, und Sie können die Parameter mit einem Binomialfamilien-Glm oder einem Glmm mit Pflanzen-ID als Zufallseffekt schätzen. Wenn sie sich jedoch teilweise selbst und Insektenbestäubung erhalten können, benötigen Sie wieder eine Mischung aus zwei Binomialverteilungen. In diesem Fall würde ich die Verwendung von OpenBUGS oder JAGS untersuchen, um das Modell mithilfe von MCMC anzupassen.

Sobald Sie die beiden Modelle an Ihre Daten angepasst haben, vergleichen Sie die Modelle, um festzustellen, welches Modell besser passt. Verwenden Sie dazu AIC oder BIC oder eine andere Metrik Ihrer Wahl.

— atiretoo - Monica wieder einsetzen
quelle

Vielen Dank für dieses Atiretoo, aber das Ausführen dieses Codes scheint eine zufällige Anzahl von Seeds sowie eine zufällige Verteilung zu generieren. Ich dachte, dass ich wollte, dass der Nubmer von Samen repariert wird (sagen wir 19 Samen, siehe unten) und dann sehe, wie wahrscheinlich eine bestimmte Verteilung für genau diesen Nubmer ist

— BWGIA

Opps, drücke zu früh auf Post und ich meinte "siehe oben", da ich meiner Frage einige Informationen hinzugefügt habe. Ich bin fasziniert von Ihrem Kommentar zur Verwendung von AIC zum Vergleichen von Modellen. Kann ich das modellübergreifend (mit derselben Antwortvariablen) mit unterschiedlichen Verteilungen tun? Ich dachte, der AIC-Vergleich wäre nur gültig, wenn Sie einem Modell Begriffe hinzufügen / löschen, aber dieselbe Verteilungsfamilie angeben?

— BWGIA

Nein, das ist der Hauptvorteil von AIC gegenüber z. B. Rückwärtsauswahl. Solange die Daten identisch sind, können Sie AIC zwischen verschiedenen Modellen vergleichen, auch wenn diese nicht verschachtelt sind. Sie müssen darauf achten, dass die Software die Wahrscheinlichkeiten berechnet, ohne Konstanten auszulassen, aber innerhalb einer einzigen Funktion können Sie nicht verschachtelte Modelle problemlos vergleichen.

— Atiretoo - Wiedereinstellung Monica