Methoden zur Anpassung diskreter Verteilungen
Es gibt drei Hauptmethoden *, die verwendet werden, um diskrete Verteilungen anzupassen (deren Parameter zu schätzen).
Hiermit werden die Parameterwerte ermittelt, die die beste Chance bieten, Ihre Probe zu liefern (unter Berücksichtigung der anderen Annahmen wie Unabhängigkeit, konstante Parameter usw.).
Dadurch werden die Parameterwerte ermittelt, die bewirken, dass die ersten Momente der Grundgesamtheit mit Ihren Beispielmomenten übereinstimmen. Es ist oft ziemlich einfach und liefert in vielen Fällen ziemlich vernünftige Schätzer. Es wird auch manchmal verwendet, um ML-Routinen mit Startwerten zu versorgen.
Dies minimiert die Chi-Quadrat-Güte der Anpassungsstatistik über die diskrete Verteilung, obwohl manchmal bei größeren Datensätzen die Endkategorien zur Vereinfachung kombiniert werden können. Es funktioniert oft ziemlich gut und hat in bestimmten Situationen sogar einige Vorteile gegenüber ML, aber im Allgemeinen muss es zur Konvergenz iteriert werden. In diesem Fall bevorzugen die meisten Menschen ML.
Die ersten beiden Methoden werden auch für kontinuierliche Verteilungen verwendet. der dritte wird in diesem Fall normalerweise nicht verwendet.
Diese enthalten keinesfalls eine vollständige Liste, und es wäre durchaus möglich, Parameter zu schätzen, indem Sie beispielsweise die KS-Statistik minimieren - und selbst (wenn Sie die Diskriminanz korrigieren), wenn Sie dies tun, eine gemeinsame Konsonanzregion daraus zu ziehen so geneigt. Da Sie in R arbeiten, ist die ML-Schätzung für das negative Binom recht einfach zu erreichen. Wenn Ihre Probe in war x
, ist es so einfach wie library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Dies sind die Parameterschätzungen und ihre (asymptotischen) Standardfehler.
Im Fall der Poisson-Verteilung schätzen sowohl MLE als auch MoM den Poisson-Parameter im Stichprobenmittel.
Wenn Sie Beispiele sehen möchten, sollten Sie einige aktuelle Zahlen veröffentlichen. Beachten Sie, dass Ihr Histogramm mit Behältern erstellt wurde, die so ausgewählt wurden, dass die Kategorien 0 und 1 kombiniert werden und wir nicht die Rohwerte haben.
Soweit ich das beurteilen kann, lauten Ihre Daten ungefähr wie folgt:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Die großen Zahlen sind jedoch ungewiss (dies hängt stark davon ab, wie genau die niedrigen Zählwerte durch die Pixelzahlen ihrer Balkenhöhen dargestellt werden), und es kann sich um ein Vielfaches dieser Zahlen handeln, etwa das Doppelte dieser Zahlen (die rohen Zählwerte wirken sich aus) die Standardfehler, also ist es wichtig, ob sie über diese Werte oder doppelt so groß sind)
Das Kombinieren der ersten beiden Gruppen ist etwas umständlich (dies ist möglich, aber weniger einfach, wenn Sie einige Kategorien kombinieren. In diesen ersten beiden Gruppen befinden sich viele Informationen. Lassen Sie sie daher am besten nicht vom Standardhistogramm zusammenfassen ).
* Andere Methoden zum Anpassen diskreter Verteilungen sind natürlich möglich (man könnte beispielsweise Quantile abgleichen oder andere Anpassungsstatistiken minimieren). Diejenigen, die ich erwähne, scheinen die häufigsten zu sein.