Nach dem, was ich gelesen habe, sind unter anderem auf der Website der UCLA-Statistikberatungsgruppe Likelihood-Ratio-Tests und Wald-Tests ziemlich ähnlich, wenn getestet wird, ob zwei glm-Modelle einen signifikanten Unterschied in der Passform für einen Datensatz aufweisen (entschuldigen Sie, wenn mein Wortlaut könnte ein bisschen aus sein). Im Wesentlichen kann ich zwei Modelle vergleichen und testen, ob das zweite Modell eine deutlich bessere Passform aufweist als das erste oder ob es keinen Unterschied zwischen den Modellen gibt.
Daher sollten die LR- und Wald-Tests dieselben Ballpark-p-Werte für dieselben Regressionsmodelle zeigen. Zumindest sollte die gleiche Schlussfolgerung gezogen werden.
Jetzt habe ich beide Tests für dasselbe Modell in R durchgeführt und sehr unterschiedliche Ergebnisse erhalten. Hier sind die Ergebnisse von R für ein Modell:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
Zu den Daten enthalten die Daten $ y Zähldaten und die Daten $ site_name sind ein Faktor mit 9 Ebenen. Daten $ y enthalten 54 Werte mit 6 Werten pro Datenebene $ site_name.
Hier sind Häufigkeitsverteilungen:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
Jetzt passen diese Daten aufgrund der enormen Überstreuung der Nullzählungen nicht sehr gut zur Poissonverteilung. Aber mit einem anderen Modell, bei dem die Daten $ y> 0 recht gut zum Poisson-Modell passen, und wenn ich ein Poisson-Modell ohne Inflation verwende, erhalte ich immer noch sehr unterschiedliche Ergebnisse für Waldtests und LRT-Tests. Dort zeigt der Waldtest einen p-Wert von 0,03, während der lrtest einen p-Wert von 0,0003 hat. Immer noch ein Unterschied von Faktor 100, auch wenn die Schlussfolgerung dieselbe sein könnte.
Was verstehe ich hier falsch mit dem Likelihood-Verhältnis gegenüber Waldtest?