Geringe Stichprobengröße: LR vs F

Einige von Ihnen haben vielleicht dieses schöne Papier gelesen:

O'Hara RB, Kotze DJ (2010) Zählen Sie keine Zähldaten. Methoden in Ökologie und Evolution 1: 118–122. klick .

Derzeit vergleiche ich negative Binomialmodelle mit Gaußschen Modellen für transformierte Daten. Im Gegensatz zu O'Hara RB, Kotze DJ (2010) betrachte ich den Sonderfall niedriger Stichprobengrößen und in einem Kontext zum Testen von Hypothesen.

Eine verwendete Simulationen, um die Unterschiede zwischen beiden zu untersuchen.

Typ I Fehlersimulationen

Alle Berechnungen wurden in R. durchgeführt.

Ich simulierte Daten aus einem faktoriellen Design mit einer Kontrollgruppe ( ) und 5 Behandlungsgruppen ( ). Abundanzen wurden aus negativen Binomialverteilungen mit festem Dispersionsparameter (θ = 3,91) gezogen. Die Häufigkeit war bei allen Behandlungen gleich. $μ_c$ $μ_{1−5}$

Für die Simulationen habe ich die Stichprobengröße (3, 6, 9, 12) und die Häufigkeit (2, 4, 8, ..., 1024) variiert. 100 Datensätze wurden unter Verwendung eines negativen binomischen GLM ( MASS:::glm.nb()), eines Quasipoisson-GLM ( glm(..., family = 'quasipoisson') und eines Gaußschen GLM + log-transformierten Daten ( lm(...)) erzeugt und analysiert .

Ich verglich die Modelle mit dem Nullmodell unter Verwendung eines Likelihood-Ratio-Tests ( lmtest:::lrtest()) (Gauß-GLM und neg. Bin-GLM) sowie F-Tests (Gauß-GLM und Quasipoisson-GLM) ( anova(...test = 'F')).

Bei Bedarf kann ich den R-Code bereitstellen, siehe aber auch hier eine verwandte Frage von mir.

Ergebnisse Geben Sie hier die Bildbeschreibung ein

Bei kleinen Stichprobengrößen führen die LR-Tests (grün - neg.bin.; Rot - gauß) zu einem erhöhten Typ-I-Fehler. Der F-Test (blau - Gauß, lila - Quasi-Poisson) scheint auch für kleine Stichprobengrößen zu funktionieren.

LR-Tests ergeben ähnliche (erhöhte) Fehler vom Typ I sowohl für LM als auch für GLM.

Interessanterweise funktioniert das Quasi-Poisson ziemlich gut (aber auch mit einem F-Test).

Wenn die Probengröße zunimmt, funktioniert der LR-Test erwartungsgemäß ebenfalls gut (asymptotisch korrekt).

Für die kleine Stichprobengröße gab es einige Konvergenzprobleme (nicht gezeigt) für das GLM, jedoch nur bei geringen Häufigkeiten, so dass die Fehlerquelle vernachlässigt werden kann.

Fragen

Beachten Sie, dass die Daten aus einem neg.bin generiert wurden. Modell - also hätte ich erwartet, dass der GLM am besten abschneidet. In diesem Fall ist ein lineares Modell für transformierte Häufigkeiten jedoch besser. Gleiches gilt für Quasi-Poisson (F-Test). Ich vermute, das liegt daran, dass der F-Test bei kleinen Stichproben besser abschneidet - ist das richtig und warum?
Der LR-Test funktioniert aufgrund von Asymptotik nicht gut. Gibt es Verbesserungsmöglichkeiten?
Gibt es andere Tests für GLMs, die möglicherweise eine bessere Leistung erbringen? Wie kann ich das Testen auf GLMs verbessern?
Welche Art von Modellen für Zähldaten mit kleinen Stichprobengrößen sollte verwendet werden?

Bearbeiten:

Interessanterweise funktioniert der LR-Test für ein Binomial-GLM ziemlich gut: Geben Sie hier die Bildbeschreibung ein

Hier zeichne ich Daten aus einer Binomialverteilung, ähnlich wie oben eingerichtet.

Rot: Gauß-Modell (LR-Test + Arcsin-Transformation), Ocker: Binomial-GLM (LR-Test), Grün: Gauß-Modell (F-Test + Arcsin-Transformation), Blau: Quasibinonial-GLM (F-Test), Lila: Nicht- parametrisch.

Hier zeigt nur das Gaußsche Modell (LR-Test + Arcsin-Transformation) einen Anstieg des Fehlers vom Typ I, während der GLM (LR-Test) hinsichtlich des Fehlers vom Typ I ziemlich gut abschneidet. Es scheint also auch einen Unterschied zwischen Verteilungen zu geben (oder vielleicht glm vs. glm.nb?).

— EDi
quelle

Der von Ihnen verwendete Likelihood-Ratio-Test verwendet eine Chi-Quadrat-Verteilung, um die Nullverteilung der Wahrscheinlichkeiten zu approximieren. Diese Annäherung funktioniert am besten bei großen Stichprobengrößen, daher ist die Ungenauigkeit bei kleinen Stichprobengrößen sinnvoll.

Ich sehe einige Optionen, um einen besseren Typ-I-Fehler in Ihrer Situation zu erzielen:

Es gibt korrigierte Versionen des Likelihood-Ratio-Tests, z. B. die Bartlett-Korrektur. Ich weiß nicht viel darüber (abgesehen von der Tatsache, dass sie existieren), aber ich habe gehört, dass Ben Bolker mehr weiß.
Sie können die Nullverteilung für das Wahrscheinlichkeitsverhältnis durch Bootstrapping schätzen. Wenn das beobachtete Wahrscheinlichkeitsverhältnis außerhalb der mittleren 95% der Bootstrap-Verteilung liegt, ist es statistisch signifikant.

Schließlich hat die Poisson-Verteilung einen freien Parameter weniger als das negative Binom und ist möglicherweise einen Versuch wert, wenn die Stichprobengröße sehr klein ist.

— David J. Harris
quelle

Danke David. Bei überdispersen Zählungen funktioniert das Quasi-Poisson ziemlich gut (F-Test). Die Daten wurden jedoch mit einer quadratischen Mittelwert-Varianz-Beziehung erzeugt, und Quasi-Poisson hat eine lineare mv-Beziehung. Vielen Dank für den Hinweis mit Bartletts Korrektur (Ben erwähnte ihn im Chat). Ich werde Ihre Bootstrapping-Idee überprüfen, klingt vernünftig ...

— EDi

Geringe Stichprobengröße: LR vs F - Test