Modellierung einer Poisson-Verteilung mit Überdispersion

15

Ich habe einen Datensatz, von dem ich erwarten würde, dass er einer Poisson-Verteilung folgt, aber er ist etwa dreifach überdispers. Gegenwärtig modelliere ich diese Überdispersion mit dem folgenden Code in R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Optisch scheint dies sehr gut zu meinen empirischen Daten zu passen. Wenn ich mit der Anpassung zufrieden bin, gibt es einen Grund, warum ich etwas Komplexeres tun sollte, beispielsweise die Verwendung einer negativen Binomialverteilung, wie hier beschrieben ? (Wenn ja, würden alle Hinweise oder Links dazu sehr geschätzt).

Oh, und mir ist bewusst, dass dies eine leicht gezackte Verteilung erzeugt (aufgrund der Multiplikation mit drei), aber das sollte für meine Anwendung keine Rolle spielen.

Update: Für alle, die diese Frage suchen und finden, ist hier eine einfache R-Funktion zum Modellieren eines überdispersen Poissons unter Verwendung einer negativen Binomialverteilung. Stellen Sie d auf das gewünschte Verhältnis von Mittelwert zu Varianz ein:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(über die R-Mailingliste: https://stat.ethz.ch/pipermail/r-help/2002-Juni/022425.html )

— Chrisamiller
quelle

11

Verwenden Sie für überdisperses Poisson das negative Binomial, mit dem Sie die Varianz als Funktion des Mittelwerts präzise parametrisieren können. rnbinom () usw. in R.

— Cyrus S
quelle

1

Warum ein negatives Binomial und kein gemischtes Modell mit einem zufälligen Effekt auf Beobachtungsebene? Dies ist keine rhetorische Frage. Dies ist ein "Ich verstehe nicht, welches ich bevorzugen sollte." Frage. Was ist außerdem, wenn ich eine Situation mit wiederholten Messungen habe? Wenn meine Daten stetig sind, verwende ich ein verallgemeinertes lineares Mischmodell. Die Gamma-Verteilung funktioniert häufig gut mit kontinuierlichen biologischen Daten, und das gemischte Modell verarbeitet das Element für wiederholte Messungen. Aber was macht man, wenn man Messwiederholungsdaten überstreut hat?

— Bryan

Ein Grund, warum das umparametrisierte negative Binomialmodell bei überdispersen Poisson-Daten beliebt ist, ist b / c, das die Varianz als Funktion des Mittelwerts (wie im Poisson) mit einem Überdispersionsparameter modelliert, um "zusätzliche" Varianz zu modellieren. Eine kurze Formel finden Sie hier auf Seite 487: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 und eine Erklärung zur Neuparametrierung auf der Wikipedia-Seite: en.wikipedia.org/wiki/Negative_binomial_distribution

— Samir Rachid Zaim

4

Wenn Ihr Mittelwert für den Poisson 1500 ist, dann sind Sie einer Normalverteilung sehr nahe. Sie können versuchen, dies als Näherung zu verwenden und dann den Mittelwert und die Varianz separat zu modellieren.

— Reich
quelle

Das ist nur ein Beispiel - es könnte einen Median haben, der viel kleiner ist, in der Größenordnung von 200 (es hängt davon ab, wie ich die Daten partitioniere). Das würde eine Normalverteilung ausschließen, oder?

— Chrisamiller

1

Die normale Annäherung an die Poisson-Verteilung ist ziemlich robust, der Unterschied zwischen den CDFs ist, wenn ich mich recht entsinne, durch etwa 0,75 / sqrt (Lambda) begrenzt. Ich würde mir keine Sorgen um Lambda = 200 machen, aber wenn Sie risikoaverser sind, sollten Sie auf jeden Fall das negative Binomial wählen.

— Rich