Ich werde eine Antwort versuchen, auch wenn mir die Situation nicht ganz klar ist. Formeln müssen angepasst werden! Das Problem der Schätzung von in der Binomialverteilung ist alt und es gibt mehrere relevante Arbeiten. Ich werde am Ende einige Referenzen geben. N
Es gebe Regionen (im OP-Beispiel ) mit Abtastwerten (aus disjunkten Zeitintervallen gleicher Länge) aus jeder Region. Die beobachteten Variablen sind die unabhängige binomische Zufallsvariablen sind, wobei die Verteilung beide unbekannt ist. Die Log-Likelihood-Funktion wird zu
Beachten Sie, dass in dem üblichen Problem, wenn ist, so dass nur unbekannt ist, die Summe (oder der Mittelwert) des BinomialsRR=2TxitBin(Ni,p)ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit)
Nipxitist eine ausreichende Zusammenfassung, so dass die Analyse hinsichtlich der Binomialverteilung der Summe durchgeführt werden kann. In unserem Problem ist dies jedoch aufgrund des ersten Terms in der Log-Likelihood-Funktion nicht der Fall, und die Log-Likelihood hängt von jeder einzelnen Zählung ab! Also, was Sie vorschlagen, um auf die Summe der Zählungen (über ) zu reduzieren , sollte nicht getan werden, da dies Informationen verlieren wird (wie viel, ich weiß nicht, aber das kann untersucht werden ...). Versuchen wir das etwas besser zu verstehen. Zuerst sehen wir unten, dass ein konsistenter Schätzer vonimaxt(xit)NiDieser konsistente Schätzer ist jedoch keine Funktion der summierten Zählungen. Dies ist ein klarer Hinweis darauf, dass die Summierung Informationen verliert! Beachten Sie auch, dass der Mittelwert ein unvoreingenommener Schätzer seiner Erwartung ist, der , aber keine Informationen über und einzeln zu enthalten scheint , wenn nichts über den anderen Parameter bekannt ist. zeigt an, dass nützliche Informationen über in der Wahrscheinlichkeitsfunktion in der Streuung der WerteNipNipNixi1…,xiTDies zeigt erneut an, dass die Summierung schlecht ist. Das unten erwähnte Papier von Olkin et al. Zeigt in der Tat, dass der Schätzer der Momentmethode in vielen Fällen besser ist als die maximale Wahrscheinlichkeit! und das nutzt die empirische Varianz der , konnte also nicht aus den summierten Daten berechnet werden.xi1…,xiT
Es ist bekannt, dass dieses Problem instabil ist. Versuchen wir zu verstehen warum. In dem üblichen Problem, bei dem geschätzt wird, wenn bekannt ist, kann die Schätzung aus einer der Daten, dem Mittelwert, erfolgen. Wenn wir versuchen, sowohl als auch zu schätzen , verwenden wir viel feinere Eigenschaften der Log-Likelihood-Funktion (also der Daten). Um zu sehen, warum, denken Sie daran, dass wir die Poisson-Verteilung als Grenze des Binomials erhalten können, wenn auf Null geht und ohne Grenzen mit einem konstant positiven Produkt wächst. Also, wenn klein ist undpNiNippNpNgroß, wird die Binomialverteilung ziemlich nahe an dieser Grenze liegen. Nehmen Sie zwei Fälle: (A) , (B) . Zeichnen Sie Histogramme für die beiden (Binomial-) Verteilungen:N=100,p=0.01N=20,p=0.05
> zapsmall(cbind(0:20,pA,pB))
pA pB
[1,] 0 0.366032 0.358486
[2,] 1 0.369730 0.377354
[3,] 2 0.184865 0.188677
[4,] 3 0.060999 0.059582
[5,] 4 0.014942 0.013328
[6,] 5 0.002898 0.002245
[7,] 6 0.000463 0.000295
[8,] 7 0.000063 0.000031
[9,] 8 0.000007 0.000003
[10,] 9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000
Über einer Tabelle dieser Wahrscheinlichkeiten. Um anhand der beobachteten Daten zu erkennen, welche dieser beiden Verteilungen man hat, muss in diesem Fall entschieden werden, ob oder . Es ist offensichtlich ziemlich schwierig, und die Instabilität der resultierenden Schätzer ist nur zu erwarten. Dieses Beispiel zeigte auch, dass die Instabilität hauptsächlich für kleine . Sie sagen, Sie erwarten um 0,7, also könnte das Problem dann stabiler sein. Sie können dies für Ihre Daten untersuchen, indem Sie den Maximum-Likelihood-Schätzer als Funktion eines bekannten und diesen für zeichnenN=100N=20ppppin einem gewissen Konfidenzintervall. Oder Sie könnten volle Bayes gehen, dies ist ein Fall, in dem sogar einige ziemlich vage vorherige Informationen hilfreich sein könnten.
Die Parameter sind tatsächlich schätzbar. Es ist klar, dass , so dass es möglich ist, diese maximale Anzahl als Schätzer für . Dieser Schätzer ist stark konsistent, und ein Parameter mit einem konsistenten Schätzer muss schätzbar sein. Wie das obige Beispiel zeigt, ist die Schätzbarkeit fast eine Formalität; In der Praxis sind Verteilungen mit sehr unterschiedlichen sehr eng, so dass sehr schwach abschätzbar ist.Ni≥maxt(xit)NNN
Ich werde hier keine Details zu den Schätzmethoden geben, aber einige Referenzen, die Sie überprüfen können:
Ingram Olkin, A John Petkau, James V Zidek: Ein Vergleich von N Schätzern für die Binomialverteilung. JASA 1981. Dies ist ein klassisches Papier, das ML- und Momentschätzer sowie einige stabilere Varianten entwickelt und analysiert. Interessanterweise zeigt sich auch, dass in vielen Fällen der Schätzer für die Momentmethode besser ist als der ML-Schätzer!
Raymond J Carrol und F Lombard: Ein Hinweis zu N Schätzern für die Binomialverteilung. JASA 1985.
Entwickelt einen alternativen, stabileren und vielleicht besseren Schätzer, der auf der Integration von aus der Wahrscheinlichkeit basiert . Stellt auch fest, dass die summierten Zählungen nicht ausreichen.p
J Andrew Royle: N_Mixture-Modelle zur Schätzung der Populationsgröße anhand räumlich replizierter Zählungen. Biometrics, 2004. Dies gibt einen anderen, alternativen Bayes'schen Ansatz, den Sie versuchen können.
Zurück zu Ihrer konkreten Frage. Sie sollten die Zählungen über Ihre beiden Regionen NICHT summieren! Das wird Informationen verlieren. Wenn Sie einführen, kann die Log-Likelihood-Funktion als Funktion von , und (oder ) geschrieben werden. Dann sollte der zusätzliche Parameter durch eine Prozedur eliminiert werden. Ich werde darauf zurückkommen, aber nein, es ist keine Zeit! N=N1+N2NpN1N2N1