Umgekehrtes Geburtstagsproblem mit mehreren Kollisionen


9

Angenommen, Sie hatten ein außerirdisches Jahr mit einer unbekannten Länge N. Wenn Sie eine zufällige Stichprobe dieser Außerirdischen haben und einige von ihnen Geburtstage teilen, können Sie diese Daten verwenden, um die Länge des Jahres zu schätzen?

In einer Stichprobe von 100 könnten Sie beispielsweise zwei Drillinge (dh zwei Geburtstage, die jeweils von drei Außerirdischen geteilt werden) und fünf Paare und vierundachtzig Singletons haben. Bei der Schätzung von N beträgt das absolute Minimum 91 und das Maximum ist unbegrenzt. Wie würde ich jedoch einen angemessenen erwarteten Wert finden?

Zu den Annahmen gehören Dinge wie "Alle Geburtstage sind gleich wahrscheinlich".

Im Gegensatz zu einer anderen hier beantworteten Frage sind Kollisionen im Raum bekannt. In einem ausreichend langen Jahr besteht eine hohe Wahrscheinlichkeit, dass keine Kollisionen für einen Raum von Außerirdischen auftreten. Sehr lange Jahre haben jedoch eine geringe Wahrscheinlichkeit für Kollisionen, und kurze Jahre haben eine geringe Wahrscheinlichkeit für wenige Kollisionen, wodurch ein (theoretischer) Bereich für die wahrscheinlichsten Jahreslängen bereitgestellt wird.


3
Meine Antwort auf eine spezielle Version dieser Frage lässt sich leicht verallgemeinern (unter Verwendung der Multinomialverteilung): siehe stats.stackexchange.com/questions/252813 .
whuber

@ Techhead Auf verschiedene Arten! Der naheliegende Ansatz für die Parameterschätzung wäre die maximale Wahrscheinlichkeit.
Glen_b -Reinstate Monica


1
@whuber Ich habe diese Frage und Ihren Kommentar gesehen, aber ich habe nicht gesehen, wie ich das meiste davon auf eine Probe mit bekannten Kollisionen anwenden kann. Es ist nicht schwer, die erweiterte Form zu finden, aber ich weiß nicht, wie ich die logarithmische Summe finden würde.
Techhead

1
Ich bin damit einverstanden, dass Ihre Version so kompliziert ist, dass sie nicht als Duplikat geschlossen werden sollte.
whuber

Antworten:


2

Der Erwartungswert einer Verteilung wird berechnet als . Für dieses Problem wollen wir die Verteilung von bei bestimmten Kollisionskriterien berechnen oder bei bestimmten Kollisionskriterien finden, wobei N E ( N ) = Σ n = 0 p n n p n = P ( N = n ) .E(X)=pixiNE(N)=n=0pnnpn=P(N=n).

Angenommen, Sie haben einige Kollisionskriterien wie oben angegeben, und ist die Wahrscheinlichkeit, dass die Kollisionskriterien erfüllt sind, wenn die Länge des Jahres beträgtDann kann gefunden werden, indem einfach die Anzahl der Möglichkeiten, wie die Kollisionskriterien erfüllt werden können, durch die Anzahl der Möglichkeiten geteilt wird, wie Geburtstage im Allgemeinen angeordnet werden können. Sobald für jedes mögliche , fehlt nur noch die Übersetzung von in n . q n q n n q n p n .qnn.qnqnnqnpn.

Wenn wir annehmen, dass proportional zu , dann istDa , ist undDaher brauchen wir nur eine Formel für , um dieses Problem zu lösen.q n p n = α q n . n = 0 p n = 1 α n = 0 q n = 1 α = 1pnqnpn=αqn.n=0pn=1αn=0qn=1qnα=1n=0qn.qn

Lassen Sie uns für Ihr Beispiel zunächst die Anzahl der Möglichkeiten ermitteln, wie die Kollisionskriterien beiDer erste außerirdische Singleton kann an jedem Tag landen, es gibt also Möglichkeiten. Der nächste Singleton kann an jedem Tag außer dem Geburtstag des ersten Aliens landen, daher gibt es Möglichkeiten. Wenn wir dies für die ersten 84 Singletons vervollständigen, erhalten wir mögliche Wege, wie dies geschehen kann. Beachten Sie, dass wir auch 5 Paare und 2 Drillinge haben, sodass der "erste" Alien für jede Gruppe auch nicht auf den Singleton-Paaren landen darf. Dies führt zu einer Art und Weise, wie diese Aliens nicht kollidieren (die ungeschickte Syntax dient später zur leichteren Verallgemeinerung).n n - 1 n ( n - 1 ) ( n - 2 ) . . . ( n - 83 ) n ( n - 1 ) ( n - 2 ) . . . ( n - 84 - 5 - 2 + 1 )N=n.nn1n(n1)(n2)...(n83)n(n1)(n2)...(n8452+1)

Als nächstes hat der zweite Alien für ein bestimmtes Paar oder Triplett 91 Auswahlmöglichkeiten, der nächste hat 90 usw. Die Gesamtzahl der Möglichkeiten, wie dies bei den Geburtstagen der ersten 91 Aliens geschehen kann, beträgt . Die verbleibenden Mitglieder der Drillinge müssen auf die Geburtstage der Paare fallen, und die Wahrscheinlichkeit dafür liegt bei . Wir multiplizieren die Wahrscheinlichkeiten für diese alle zusammen, um eine Gesamtzahl möglicher Wege zu erhalten, wie die Kollisionskriterien erfüllt werden können:7 691(911)(912)...(917+1)76

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

An diesem Punkt ist das Muster klar, wenn wir Singletons, Paare und Tripletts, ersetzen wir 84 mit 5 mit und 2 mit eine verallgemeinerte Formel zu erhalten. Ich denke, es ist auch klar, dass die Anzahl der möglichen Arten, die Geburtstage im Allgemeinen , , wobei m die Gesamtzahl der Außerirdischen in dem Problem ist. Daher ist die Wahrscheinlichkeit, die Kollisionskriterien zu erfüllen, die Anzahl der Möglichkeiten, die Kollisionskriterien zu erfüllen, geteilt durch die Anzahl der Möglichkeiten, wie die Außerirdischen geboren werden könnten, oder .b c a , b , c n m q n = r nabca,b,cnmqn=rnnm

Eine andere interessante Sache erschien in der Formel von . Sei Und sei sei der verbleibende Teil von so dass . Beachten Sie, dass unabhängig von n ist, also können wir einfach als Konstante schreiben ! Da und , können wir tatsächlich Faktor aus der Summe in dem Nenner. Zu diesem Zeitpunkt wird es mit dem Teil vom Zähler abgebrochen, um . Wir können vereinfacheny n = n ( n - 1 ) . . . ( n - ( a + b + c ) + 1 ) = n !rnznrnrn=ynznznzn=zpn=qn/i = 0 qiqn=zynyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qi zpn=ynqn=zynnmzyns=a+b+cpn=ynnm/i=0(yiim)ynweiter, wenn wir (oder dies kann als die Anzahl der eindeutigen Geburtstage in der Gruppe der Außerirdischen angesehen werden), so dass wir erhalten:s=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

Jetzt haben wir eine (ziemlich) einfache Formel für und daher eine (ziemlich) einfache Formel für , wobei nur angenommen wurde, dass proportional zu (die Wahrscheinlichkeit, die Kollision zu treffen) Kriterien gegeben, dass ). Ich denke, dies ist eine faire Annahme, und jemand, der klüger als ich ist, kann möglicherweise sogar beweisen, dass diese Annahme nach einer multinomialen Verteilung mit . An diesem Punkt können wir mit numerischen Methoden berechnen oder einige Näherungsannahmen treffen, da sich 0 nähert, wenn sich nähert . E ( N ) P ( N = n ) q n N = n P ( N = n ) E ( N ) p n n pnE(N)P(N=n)qnN=nP(N=n)E(N)pnn


Es scheint, als würden Sie vorschlagen, den Erwartungswert auf der Grundlage einer Wahrscheinlichkeitsfunktion und nicht einer Wahrscheinlichkeitsmassenfunktion zu berechnen. War das beabsichtigt?
Sextus Empiricus

2

Die ausgezeichnete Antwort von Cody bietet eine gute Möglichkeit, die Wahrscheinlichkeitsfunktion für , die Anzahl der Tage im Jahr (oder die hintere Verteilung basierend auf einem flachen Prior) auszudrücken, indem ein Teil der Wahrscheinlichkeit herausgerechnet wird, die von unabhängig ist .NN

In dieser Antwort möchte ich es genauer aufschreiben und auch eine Möglichkeit bieten, das Maximum dieser Wahrscheinlichkeitsfunktion zu berechnen (und nicht den erwarteten Wert, der viel schwieriger zu berechnen ist).


Wahrscheinlichkeitsfunktion für N.

Die Anzahl der Möglichkeiten, eine Folge von Geburtstagen aus einer Menge von Geburtstagen zu ziehen, mit der Einschränkung, dass die Anzahl der einzelnen Geburtstage, doppelten Geburtstage und dreifachen Geburtstage ist, ist gleicha+2b+3cnabc

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

und nur der erste Term auf der rechten Seite ist von abhängig. wir also die anderen Terme enden wir mit einem einfachen Ausdruck für eine Wahrscheinlichkeitsfunktionn

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

wo wir der Notation von Cody folgen und , um die Anzahl der Außerirdischen und die Anzahl der eindeutigen Geburtstage zu bezeichnen.ms


Maximale Wahrscheinlichkeitsschätzung für N.

Wir können diese Wahrscheinlichkeitsfunktion verwenden, um die maximale Wahrscheinlichkeitsschätzung für abzuleiten .N

Beachten Sie, dass

L(n)=L(n1)(n1n)mnns

und das Maximum wird kurz vor dem für dasn

(n1n)mnns=1

oder

s=n(1(11/n)m)

Dies ist ungefähr für großes (unter Verwendung einer Laurent-Reihe, die Sie finden können, indem Sie und die Taylor-Reihe für in den Punkt schreiben ).nx=1/nxx=0

sk=0l(mk)(n)k+O(n(l+1))

Wenn Sie nur den Term erster Ordnung Sie:smm(m1)2n

n1(m2)ms

Unter Verwendung der Term zweiter Ordnung als auch Sie bekommen , ::smm(m1)2n+m(m1)(m2)6n2

n2(m2)+(m2)24(ms)(m3)2(ms)

Im Fall von Außerirdischen, unter denen es eindeutige Geburtstage gibt, erhalten Sie die Näherung und . Wenn Sie die Gleichung numerisch lösen, erhalten Sie die wir auf , um die MLE zu erhalten.m=100s=91n1550n2515.1215n=516.82n=516

Vergleich der Approximation mit der wahren MLE

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.