Wenn Sie Bälle in Bins werfen, schätzen Sie eine Untergrenze ihrer Wahrscheinlichkeit


14

Dies ist keine Hausaufgabe, obwohl es so aussieht. Jede Referenz ist willkommen. :-)

Szenario: Es gibt n verschiedene Bälle und n verschiedene Behälter (beschriftet von 1 bis n , von links nach rechts). Jeder Ball wird unabhängig und gleichmäßig in Behälter geworfen. Sei f(i) die Anzahl der Kugeln im i ten Behälter. Es sei Ei das folgende Ereignis.

Für jeden ji , kjf(k)j1

Das heißt, die ersten j Bins (die am weitesten links liegenden j Bins) enthalten weniger als j Balls für jedes ji .

Frage: Schätze i<nPr(Ei) , ausgedrückt als n ? Wenn n unendlich wird. Eine untere Grenze wird bevorzugt. Ich glaube nicht, dass es eine einfach zu berechnende Formel gibt.

limnPr(E1)=limn(n1n)n=1ePr(En)=0

Meine Vermutung: Ich vermute , wenn unendlich wird. Ich habe die ersten Elemente in der Summe berücksichtigt .i<nPr(Ei)=lnnnlnn


1
Es sieht aus wie ein Teilfall aus dem Geburtstagsproblem ..
Gopi

@Gopi Ich kann mich nicht davon überzeugen, dass meine Frage ein eingeschränktes Geburtstagsproblem ist. Kannst du es explizit erklären? Vielen Dank. Hinweis: Die Einschränkung gilt für die Summe der Bälle in den ersten Bins, nicht für die Anzahl der Bins in einem bestimmten Bin. j
Peng Zhang

In der Tat habe ich nach dem erneuten Lesen des Wikipedia-Artikels zum Geburtstagsproblem festgestellt, dass ich über ein anderes Problem nachgedacht habe, das aus dem Geburtstagsproblem übernommen wurde.
Gopi

2
Einige falsche Ideen ... Überlegen Sie sich also, wie Sie einen Zustand codieren: Lesen Sie die Bins von links nach rechts. Wenn der erste Behälter i Bälle hat, geben Sie eine Folge von i Einsen aus, gefolgt von einer 0. Führen Sie dies für alle Behälter von links nach rechts aus. Ihre Codierung scheint zu sein, dass Sie sich für das größte i interessieren, sodass diese Binärzeichenfolge (die n Nullen und n Einsen enthält) zum ersten Mal mehr Einsen als Nullen enthält. Nun läßt einen Sprung des Schicksals machen und die 0 und 1 mit gleicher Wahrscheinlichkeit erzeugt . (Dies könnte völliger Unsinn sein). Dieses Problem hängt mit katalanischen Zahlen und Dyck-Wörtern zusammen. Und...??? 1/2
Sariel Har-Peled

4
Ich sehe nicht in Ihrer Definition, warum es wichtig ist, dass die Kugeln unterschiedlich sind. Auch die String-Intepetation trägt der Tatsache Rechnung, dass die Bins unterschiedlich sind.
Sariel Har-Peled

Antworten:


11

EDIT: (2014-08-08) Wie Douglas Zare in den Kommentaren ausführt, ist das folgende Argument, insbesondere die "Brücke" zwischen den beiden Wahrscheinlichkeiten, falsch. Ich sehe keinen direkten Weg, um das Problem zu beheben. Ich werde die Antwort hier lassen , wie ich es immer noch glauben , dass sie Intuition liefert, aber wissen , dass ist nicht im allgemeinen wahr.

Pr(Em)l=1mPr(Fl)

Dies wird keine vollständige Antwort sein, aber es wird hoffentlich genug Inhalt geben, den Sie oder jemand, der über mehr Wissen als ich verfügt, zu Ende bringen kann.

Betrachten Sie die Wahrscheinlichkeit, dass genau Bälle in die ersten l (von n ) Bins fallen:kln

(nk)(ln)k(nln)nk

Rufen Sie die Wahrscheinlichkeit , dass weniger als Kugeln fallen in den ersten l Behälter F l :llFl

Pr(Fl)=k=0l1(nk)(ln)k(nln)nk

Die Wahrscheinlichkeit , dass das Ereignis, , oben auftritt , ist geringer , als wenn wir jede der betrachteten F l Ereignisse auftreten , unabhängig und auf einmal. Dies gibt uns eine Brücke zwischen den beiden:ElFl

Pr(Em)l=1mPr(Fl)=l=1m(k=1l1(nk)(lnk)(nln)nk)=l=1mF(l1;n,ln)

Wobei ist diekumulative Verteilungsfunktion für die Binomialverteilungmitp=lF(l1;n,ln) . Wennwirnur ein paar Zeilen weiter unten auf der Wikipedia-Seite lesen und feststellen, dass(l-1pn), können wirChernoffs Ungleichung verwenden, umFolgendeszu erhalten:p=ln(l1pn)

Pr(Em)l=1mexp[12l]=exp[12l=1m1l]=exp[12Hm]exp[12(12m+ln(m)+γ)]

Wo die ist m -te harmonische Zahl , γ ist die Euler-Mascheroni Konstante und die Ungleichheit für die H m von Wolframs MathWorld gelinkten Seite genommen wird.HmmγHm

Nicht sich Gedanken über die Faktor, dies gibt uns schließlich:e1/4m

Pr(Em)eγ/2m

Nachfolgend ist ein Log-Log-Plot von durchschnittlich 100.000 Instanzen für als Funktion von m mit der Funktion e - γ / 2 dargestelltn=2048m auch als Referenz eingezeichnet:eγ/2m

Bildbeschreibung hier eingeben

Während die Konstanten deaktiviert sind, scheint die Form der Funktion korrekt zu sein.

Nachfolgend finden Sie ein Log-Log-Diagramm zum Variieren von wobei jeder Punkt der Durchschnitt von 100.000 Instanzen als Funktion von m ist :nm

Bildbeschreibung hier eingeben

Schließlich kommen wir zur ursprünglichen Frage, die Sie beantwortet haben möchten, da wir wissen, dass wir haben:Pr(Em)1m

i<nPr(Ei)n

Und als numerische Verifikation ist unten ein Log-Log-Plot der Summe gegen die Instanzgröße n . Jeder Punkt repräsentiert den Durchschnitt der Summe von 100.000 Instanzen. Die Funktion x 1 / 2 wird als Referenz aufgetragen worden:Snx1/2

Bildbeschreibung hier eingeben

Obwohl ich keinen direkten Zusammenhang zwischen den beiden sehe, haben die Tricks und die endgültige Form dieses Problems viele Gemeinsamkeiten mit dem Geburtstagsproblem, wie es ursprünglich in den Kommentaren vermutet wurde.


4
Wie erhält man ? Zum Beispiel berechne ich für n = 100 , dass P r ( E 2 ) = 0,267946 > 0,14761 = P r ( F 1 ) P r ( F 2 ) .Pr(E2)Pr(F1)×Pr(F2)n=100Pr(E2)=0.267946>0.14761=Pr(F1)Pr(F2).Wenn Ihnen gesagt wird, dass der erste Behälter leer ist, ist es dann mehr oder weniger wahrscheinlich, dass die ersten beiden Behälter höchstens Ball enthalten? Es ist wahrscheinlicher, also ist P r ( F 1 ) P r ( F 2 ) eine Unterschätzung. 1Pr(F1)Pr(F2)
Douglas Zare

@DouglasZare, ich habe Ihre Berechnungen überprüft. Sie haben Recht. Es tut mir leid, nicht strenger zu sein.
User834

15

Die Antwort ist .Θ(n)

Berechnen wir zunächst .En1

Nehmen wir an, wir werfen Bälle in n Behälter und untersuchen die Wahrscheinlichkeit, dass ein Behälter genau k Bälle enthält. Diese Wahrscheinlichkeit ergibt sich aus der Poisson-Verteilung, und wenn n auf geht, beträgt die Wahrscheinlichkeit, dass sich genau k Bälle in einem gegebenen Bin befinden, 1nnknk.1e1k!

Betrachten wir nun eine andere Art der Verteilung von Bällen in Behälter. Wir werfen eine Anzahl von Bällen in jeden Behälter, der aus der Poisson-Verteilung ausgewählt wurde, und unter der Bedingung, dass insgesamt Bälle vorhanden sind . Ich behaupte, dass dies genau die gleiche Verteilung ergibt, wie wenn man n Bälle in n Bins wirft . Warum? Es ist leicht zu erkennen, dass die Wahrscheinlichkeit, dass sich k j Bälle im j- ten Bin befinden, proportional zu n j = 1 1 istnnnkjjin beiden Distributionen.j=1n1kj!

Betrachten wir also eine zufällige Wanderung, bei der Sie bei jedem Schritt mit Wahrscheinlichkeit 1 von zu t + 1 - k gehentt+1k. Ich behaupte, dassdie Wahrscheinlichkeit, dass dieser Zufall immer über0bleibt, die Wahrscheinlichkeit ist, die das OP berechnen möchte, wenn Sie bedingen, dass dieser Zufallsrundgang nachnSchrittenauf 0 zurückkehrt. Warum? Diese Höhe dieses zufälligenSchrittesnachsSchritten istsminus der Anzahl der Bälle in den erstensBehältern.1e1k!n0sss

Wenn wir einen zufälligen Spaziergang mit einer Wahrscheinlichkeit von von nach oben oder unten1auf jeden Schritt, würde dies das klassische seinWahl Problem, für die die Antwort ist1121 . Dies ist eine Variante des Stimmzettelproblems, das untersucht wurde (siehedieses Papier), und die Antwort lautet immer nochΘ(112(n1). Ich weiß nicht, ob es einen einfachen Weg gibt, die Konstante fürΘ(1zu berechnenΘ(1n)für diesen Fall.Θ(1n)

Dasselbe Papier zeigt, dass die Wahrscheinlichkeit, immer positiv zu bleiben, Θ ( k / n ) ist , solange k = O ( ) ist , wenn der Zufallsrundgang so konditioniert ist, dass er auf Höhe endetkΘ(k/n). Diese Tatsache lässt unsEsfür jedessschätzen.k=O(n)Ess

Ich werde für den Rest meiner Antwort ein wenig wackelig sein, aber Standardwahrscheinlichkeitstechniken können verwendet werden, um dies rigoros zu machen.

n0ϵn<s<(1ϵ)nΘ(n)xt>00sΘ(t/s)tΘ(n)s=Θ(n)EsΘ(1/n).


4

[Edit 2014-08-13: Dank eines Kommentars von Peter Shor habe ich meine Schätzung der asymptotischen Wachstumsrate dieser Serie geändert.]

Mein Glaube ist das limnich<nPr(Eich) wächst als n. Ich habe keinen Beweis, aber ich glaube, ich habe ein überzeugendes Argument.

Lassen Bich=f(ich) Sei eine Zufallsvariable, die die Anzahl der Bälle in bin angibt ich. LassenBich,j=k=ichjBk Sei eine Zufallsvariable, die die Gesamtzahl der Bälle in Behältern angibt ich durch j inklusive.

Sie können jetzt schreiben Pr(Ei)=b<jPr(EjB1,j=b)Pr(EiEjB1,j=b) for any j<i. To that end, let's introduce the functions π and gi.

π(j,k,b)=Pr(Bj=kB1,j1=b)=(nbk)(1nj+1)k(njnj+1)nbk

Gich(j,k,b)=Pr(EichBj,ichkEj-1B1,j-1=b)={0k<01k> =0j>ichl=0j-b-1π(j,l,b)Gich(j+1,k-l,b+l)Ötherwichse

Wir können schreiben Pr(Eich) bezüglich Gich:

Pr(Eich)=Gich(1,ich-1,0)

Nun ist es klar aus der Definition von Gich Das

Pr(Eich)=(n-ich)n-ich+1nnhich(n)

wo hich(n) ist ein Polynom in n des Grades ich-1. Das ergibt auch einen intuitiven Sinn. mindestensn-ich+1 Bälle müssen in eines der Fächer gelegt werden (ich+1)th durch nth Behälter (von denen gibt es n-ich).

Da reden wir nur darüber Pr(Eich) wann n, nur der Bleikoeffizient von hich(n)ist relevant; Nennen wir diesen Koeffizienteneinich. Dann

limnPr(Eich)=einicheich

Wie berechnen wir? einich? Nun, hier mache ich ein kleines Handwinken. Wenn Sie die ersten paar ausarbeitenEichSie werden sehen, dass bei der Berechnung dieses Koeffizienten ein Muster entsteht. Sie können es als schreiben

einich=μich(1,ich-1,0)
wo
μich(j,k,b)={0k<01k> =0ich>jl=0j-b-11l!μich(j+1,k-l,b+l)Ötherwichse

Jetzt konnte ich kein geschlossenes Äquivalent direkt ableiten, aber ich habe die ersten 20 Werte von berechnet Pr(Eich):

N       a_i/e^i
1       0.367879
2       0.270671
3       0.224042
4       0.195367
5       0.175467
6       0.160623
7       0.149003
8       0.139587
9       0.131756
10      0.12511
11      0.119378
12      0.114368
13      0.10994
14      0.105989
15      0.102436
16      0.0992175
17      0.0962846
18      0.0935973
19      0.0911231
20      0.0888353

Nun stellt sich heraus, dass

Pr(Eich)=ichichich!eich=Pois(ich;ich)

wo Pois(ich;λ) ist die Wahrscheinlichkeit, dass eine Zufallsvariable X hat Wert ich wenn es aus einer Poisson-Verteilung mit dem Mittelwert gezogen wird λ. So können wir unsere Summe schreiben als

limnich=1nPr(Eich)=x=1xxx!ex

Wolfram Alpha sagt mir, dass diese Serie divergiert . Peter Shor weist in einem Kommentar darauf hin, dass Stirlings Annäherung es uns erlaubt, abzuschätzenPr(Eich):

limnPr(Ex)=xxx!ex12πx

Lassen

ϕ(x)=12πx

Schon seit

  • limxϕ(x)ϕ(x+1)=1
  • ϕ(x) wird weniger
  • 1nϕ(x)dx wie n

Unsere Serie wächst als 1nϕ(x)dx(Siehe zB Satz 2 ). Das ist,

ich=1nPr(Eich)=Θ(n)

1
Wolfram Alpha is wrong. Use Stirling's formula. It says that, xx/(x!ex)1/2πx.
Peter Shor

@PeterShor Danke! Ich habe die Schlussfolgerung dank Ihrer Erkenntnis aktualisiert und bin jetzt mit den beiden anderen Antworten einverstanden. Es ist interessant für mich, 3 ganz unterschiedliche Ansätze für dieses Problem zu sehen.
Ruds

4

Eine gründliche Prüfung der ersten Begriffe (durch Untersuchen aller n ^ n Fälle) und ein wenig Nachschlagen zeigt, dass die Antwort https://oeis.org/A036276 / lautet .nn. Dies impliziert, dass die Antwort lautetn12π2.

Genauer gesagt lautet die Antwort:

n!2nnk=0n-2nkk!
und es gibt keine geschlossene Antwort.

Oeis ist ziemlich genial
Thomas Ahle
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.