Antworten:
Zunächst einmal rate ich Ihnen, eine Poisson-Distribution nicht so auszuprobieren, wie es für die Daten der Fall ist. Ich schlage vor, Sie müssen zunächst eine Theorie erstellen, warum die Poisson-Verteilung zu einem bestimmten Datensatz oder Phänomen passt.
Sobald Sie dies festgestellt haben, lautet die nächste Frage, ob die Verteilung homogen ist oder nicht. Dies bedeutet, ob alle Teile der Daten von derselben Poisson-Verteilung behandelt werden oder ob dies aufgrund eines Aspekts wie Zeit oder Raum variiert. Probieren Sie die folgenden drei Tests aus, wenn Sie von diesen Aspekten überzeugt sind:
Suchen Sie nach diesen und Sie werden sie leicht im Netz finden.
Hier ist eine Folge von R-Befehlen, die hilfreich sein können. Fühlen Sie sich frei zu kommentieren oder zu bearbeiten, wenn Sie Fehler entdecken.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Ich nehme an, der einfachste Weg ist einfach ein Chi-Quadrat- Fit- Test.
Tatsächlich ist hier ein nettes Java-Applet , das genau das macht!
Sie können die Streuung (Verhältnis der Varianz zum Mittelwert) als Teststatistik verwenden, da das Poisson eine Streuung von 1 ergeben sollte. Hier finden Sie einen Link zur Verwendung als Modelltest.
Bei einer Poisson-Verteilung entspricht der Mittelwert der Varianz. Wenn Ihr Stichprobenmittelwert stark von Ihrer Stichprobenvarianz abweicht, haben Sie wahrscheinlich keine Poisson-Daten. Der hier ebenfalls erwähnte Dispersionstest ist eine Formalisierung dieses Begriffs.
Wenn Ihre Varianz viel größer als Ihr Mittelwert ist, wie es normalerweise der Fall ist, sollten Sie als Nächstes eine negative Binomialverteilung versuchen.
Sie können eine einzelne Figur zeichnen, in der die beobachteten und erwarteten Frequenzen nebeneinander gezeichnet werden. Wenn die Verteilungen sehr unterschiedlich sind und Sie auch ein Varianz-Mittelwert-Verhältnis größer als eins haben, ist das negative Binomial ein guter Kandidat. Lesen Sie den Abschnitt Häufigkeitsverteilungen von The R Book
. Es handelt sich um ein sehr ähnliches Problem.
Ich denke, der wichtigste Punkt ist der, den Sidmaestro anspricht. Unterstützt der experimentelle Aufbau oder der Datengenerierungsmechanismus die Annahme, dass die Daten aus einer Poisson-Verteilung stammen könnten?
Ich bin kein großer Fan von Tests auf Verteilungsannahmen, da diese Tests normalerweise nicht sehr nützlich sind. Was mir nützlicher erscheint, ist, Verteilungs- oder Modellannahmen zu treffen, die flexibel und relativ robust gegenüber Abweichungen vom Modell sind, typischerweise zum Zweck der Schlussfolgerung. Nach meiner Erfahrung ist es nicht üblich, Mittelwert = Varianz zu sehen, weshalb das negative Binomialmodell oft angemessener erscheint und den Poisson als Sonderfall einschließt.
Ein weiterer wichtiger Punkt beim Testen der Distribution ist, dass Sie sicherstellen, dass keine Schichten beteiligt sind, die Ihre beobachtete Distribution zu einer Mischung aus anderen Distributionen machen. Einzelne schichtenspezifische Verteilungen können in Poisson vorkommen, die beobachtete Mischung jedoch möglicherweise nicht. Eine analoge Situation aus der Regression geht nur davon aus, dass die bedingte Verteilung von Y | X normal verteilt ist und nicht wirklich die Verteilung von Y selbst.
Ein weiterer Weg, dies zu testen, ist ein Quantil-Quantil-Plot. In R gibt es qqplot. Hiermit werden Ihre Werte direkt gegen eine Normalverteilung mit ähnlichem Mittelwert und SD aufgetragen