Beziehung zwischen Binomial- und Beta-Distributionen


27

Ich bin eher ein Programmierer als ein Statistiker, daher hoffe ich, dass diese Frage nicht zu naiv ist.

Dies geschieht bei der Ausführung von Stichprobenprogrammen zu zufälligen Zeiten. Wenn ich N = 10 zufällige Zeitabtastungen des Programmzustands nehme, könnte ich sehen, dass die Funktion Foo beispielsweise für I = 3 dieser Abtastungen ausgeführt wird. Ich interessiere mich für das, was mir über den tatsächlichen Bruchteil der Zeit F, die Foo ausführt, sagt.

Ich verstehe, dass ich binomial mit dem Mittelwert F * N verteilt bin. Ich weiß auch, dass F bei I und N einer Betaverteilung folgt. Tatsächlich habe ich die Beziehung zwischen diesen beiden Distributionen programmgesteuert überprüft

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

Das Problem ist, dass ich kein intuitives Gefühl für die Beziehung habe. Ich kann mir nicht vorstellen, warum es funktioniert.

BEARBEITEN: Alle Antworten waren herausfordernd, insbesondere @whuber's, was ich noch zu klären brauche, aber das Einspielen von Auftragsstatistiken war sehr hilfreich. Trotzdem wurde mir klar, dass ich eine grundlegendere Frage hätte stellen sollen: Wie lautet die Verteilung für F bei I und N? Jeder hat darauf hingewiesen, dass es Beta ist, was ich wusste. Endlich habe ich aus Wikipedia ( Conjugate prior ) herausgefunden, dass es so scheint Beta(I+1, N-I+1). Nachdem Sie es mit einem Programm erkundet haben, scheint es die richtige Antwort zu sein. Ich würde gerne wissen, ob ich mich irre. Ich bin immer noch verwirrt über die Beziehung zwischen den beiden oben gezeigten CDs, warum sie 1 ergeben und ob sie überhaupt etwas mit dem zu tun haben, was ich wirklich wissen wollte.


Wenn "was Sie eigentlich wissen wollten" "der tatsächliche Bruchteil der Zeit ist, in der Foo ausgeführt wird", dann fragen Sie nach einem binomischen Konfidenzintervall oder einem (bayesianischen) binomischen glaubwürdigen Intervall.
Whuber

@whuber: Nun, ich habe über drei Jahrzehnte lang die Zufallspausenmethode zur Leistungsoptimierung verwendet, und einige andere Leute haben sie auch entdeckt. Ich habe den Leuten gesagt, dass, wenn eine Bedingung für 2 oder mehr Stichproben in zufälliger Reihenfolge zutrifft, das Entfernen einen guten Bruchteil der Zeit sparen würde. WIE gut ein Bruchteil ist, worüber ich mich explizit zu äußern versucht habe, vorausgesetzt, wir kennen keinen Bayesianischen Vorgänger. Hier ist die allgemeine Flamme: stackoverflow.com/questions/375913/… und stackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey

1
Gute Idee. Die statistische Annahme ist, dass die Unterbrechung unabhängig vom Ausführungsstatus ist, was eine vernünftige Hypothese ist. Ein binomiales Konfidenzintervall ist ein gutes Werkzeug zur Darstellung der Unsicherheit. (Es kann auch ein Augenöffner sein: In Ihrer 3/10-Situation beträgt ein symmetrischer zweiseitiger 95% -KI für die wahre Wahrscheinlichkeit [6,7%, 65,2%]. In einer 2/10-Situation beträgt das Intervall [2,5 %, 55,6%]. Dies sind weite Bereiche! Selbst bei 2/3 liegt die Untergrenze immer noch unter 10%. Die Lehre hier ist, dass etwas ziemlich Seltenes zweimal passieren kann.)
whuber

@whuber: Danke. Du hast recht. Etwas nützlicher ist der erwartete Wert. Ich weise darauf hin, dass, wenn Sie etwas nur einmal sehen, es Ihnen nicht viel sagt, es sei denn, Sie wissen zufällig, dass sich das Programm in einer Endlosschleife (oder in einer übermäßig langen Schleife) befindet.
Mike Dunlavey

Ich denke, alle Antworten und Kommentare waren aufschlussreich und korrekt, aber niemand hat wirklich die interessante Gleichheit angesprochen, die @MikeDunlavey in seinen ursprünglichen Beitrag eingefügt hat. Diese Gleichheit ist in der Beta- Version von wikipedia de.wikipedia.org/wiki/Beta_Funktion#Incomplete_beta_Funktion zu finden. Es wird jedoch keine Beschreibung gegeben, warum dies der Fall ist, sondern es wird nur als Eigenschaft angegeben.
bdeonovic

Antworten:


27

Betrachten Sie die Ordnungsstatistik von unabhängigen Ziehungen aus einer gleichmäßigen Verteilung. Da die Auftragsstatistik Beta-Verteilungen aufweist , ist die Wahrscheinlichkeit, dass nicht überschreitet , durch das Beta-Integral gegeben n + 1 x [ k ] px[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(Warum ist das so? Hier ist eine nicht strenge, aber einprägsame Demonstration. Die Wahrscheinlichkeit, dass zwischen und ist die Wahrscheinlichkeit, dass von einheitlichen Werten zwischen und , mindestens einer von ihnen liegt zwischen und , und der Rest liegt zwischen und Für die erste Ordnung im infinitesimalen wir nur den Fall berücksichtigen, in dem genau ein Wert (nämlich selbst) liegt zwischen und und damit p p + d p n + 1x[k]pp+dpn+10 p p p + d p p + d p 1 d p x [ k ]k0ppp+dpp+dp1dpx[k]p + d p n - k p + d p p k ( d p ) ( 1 - p - d p ) n - k dpp+dpnk Werte überschreiten . Da alle Werte unabhängig und einheitlich sind, ist diese Wahrscheinlichkeit proportional zu . In der ersten Ordnung in dies , genau der Integrand der Beta-Verteilung. Der Begriff kann direkt von diesem Argument als Multinomialkoeffizient berechnet werden oder indirekt als abgeleitete die Normalisierungskonstante des Integrals.)p+dppk(dp)(1pdp)nkp k ( 1 - p ) n - k d p 1dppk(1p)nkdp( n + 11B(k+1,nk+1)(n+1k,1,nk)

Per Definition ist das Ereignis dass der Wert von nicht überschreitet . Entsprechend überschreitet mindestens der Werte : Diese einfache (und ich hoffe, dass es offensichtlich ist) Behauptung liefert die Intuition, die Sie suchen. Die Wahrscheinlichkeit der äquivalenten Aussage ergibt sich aus der Binomialverteilung,k + 1 st p k + 1 px[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1-j.

Zusammenfassend zerlegt das Beta-Integral die Berechnung eines Ereignisses in eine Reihe von Berechnungen: Das Auffinden von mindestens Werten im Bereich , dessen Wahrscheinlichkeit wir normalerweise mit einer Binomial-cdf berechnen würden, wird gegenseitig zerlegt Ausschließliche Fälle, in denen genau Werte im Bereich und 1 Wert im Bereich für alle möglichen , und eine infinitesimale Länge sind. Summiert man über all diese "Fenster" - also integrierend -, so muss dies die gleiche Wahrscheinlichkeit ergeben wie das Binomial cdf.[ 0 , p ] k [ 0 , x ] [ x , x + d x ] x 0 x < p d x [ x , x + d x ]k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

Alt-Text


Ich weiß die Mühe zu schätzen. Ich werde das wirklich studieren müssen, weil es nicht meine "Muttersprache" ist. Außerdem sehe ich viele Dollarzeichen und Formatierungssachen. Gibt es etwas, von dem ich nichts weiß, dass es wie echte Mathematik aussieht?
Mike Dunlavey 18.11.10

Was ist passiert? Plötzlich tauchte die Mathematik auf und das Tippen wurde sehr langsam.
Mike Dunlavey 18.11.10


Ich habe die Frage überarbeitet, ob Sie einen Blick darauf werfen möchten. Vielen Dank.
Mike Dunlavey

1
Es ist ein bisschen spät, aber ich habe endlich Zeit, mich zu setzen und dein Argument neu zu erfinden. Der Schlüssel war "Multinomialkoeffizient". Ich hatte versucht, es mit einfachen alten Binomialkoeffizienten herauszufinden, und es war alles in Ordnung. Nochmals vielen Dank für eine nette Antwort.
Mike Dunlavey

12

Betrachten Sie die PDF-Datei von Binomial als Funktion von : und die PDF- von Beta als Funktion von : Sie können wahrscheinlich sehen dass mit einer geeigneten (ganzzahligen) Auswahl für und diese gleich sind. Soweit ich das beurteilen kann, ist das alles, was zu dieser Beziehung gehört: Die Art und Weise, wie in das Binomial-PDF eintritt, wird zufällig als Beta-Distribution bezeichnet.f ( x ) = ( nxpg(p)=Γ(a+b)

f(x)=(nx)px(1-p)n-x
p abp
g(p)=Γ(ein+b)Γ(ein)Γ(b)pein-1(1-p)b-1
einbp

Ich weiß, dass diese fast gleich aussehen, aber wenn ich nx durch y ersetze und das Beta-PDF nehme und a-1 durch x und b-1 durch y ersetze, erhalte ich einen zusätzlichen Faktor von (x + y + 1). oder n + 1. dh (x + y + 1)! / x! / y! * p ^ x * q ^ y. Das scheint genug zu sein, um mich abzustoßen.
Mike Dunlavey

1
Vielleicht mischt sich jemand mit einer vollständigen Antwort ein, aber in einer "intuitiven" Erklärung können wir immer Konstanten (wie ) wegwinken, die nicht von den interessierenden Variablen ( und ) abhängen , sondern dazu benötigt werden PDF hinzufügen / integrieren zu 1. Sie können die "Gleichheits" -Zeichen durch "proportional zu" -Zeichen ersetzen. x pn+1xp
Aniko

Guter Punkt. Ich glaube, ich komme einem Verständnis näher. Ich versuche immer noch zu sagen, was x über die p-Verteilung aussagt und warum diese beiden CDs die Summe 1 ergeben.
Mike Dunlavey,

1
Ich sehe "intuitive" Erklärungen anders. In einigen Fällen interessieren uns Konstanten nicht so sehr, aber in diesem Fall ist der springende Punkt zu sehen, warum ein n + 1 und nicht ein n erscheint. Wenn Sie das nicht verstehen, ist Ihre "Intuition" falsch.
Whuber

Ich habe die Frage überarbeitet, ob Sie einen Blick darauf werfen möchten. Vielen Dank.
Mike Dunlavey

5

Wie Sie bemerkt haben, beschreibt die Beta-Verteilung die Verteilung des Versuchswahrscheinlichkeitsparameters , während die Binomialverteilung die Verteilung des Ergebnisparameters . Sie haben Ihre Frage umgeschrieben und gefragt, warum Das heißt, die Wahrscheinlichkeit, dass die Beobachtung plus eins größer ist als die Erwartung der Beobachtung, ist dieselbe wie die Wahrscheinlichkeit, dass Die Beobachtung plus eins ist größer als die Erwartung der Beobachtung.I P ( F i + 1FichP(Fni+1)+P(I+1fn)=1P(Fni+1)=P(fn<I+1)

P(Fich+1n)+P(ichfn-1)=1
P(Fnich+1)+P(ich+1fn)=1
P(Fnich+1)=P(fn<ich+1)

Ich gebe zu, dass dies möglicherweise nicht dazu beiträgt, die ursprüngliche Formulierung des Problems zu verstehen, aber vielleicht hilft es, zumindest zu sehen, wie die beiden Verteilungen dasselbe zugrunde liegende Modell wiederholter Bernoulli-Versuche verwenden, um das Verhalten verschiedener Parameter zu beschreiben.


Ich weiß deine Meinung zu schätzen. Alle Antworten helfen mir, über die Frage nachzudenken und möglicherweise besser zu verstehen, was ich frage.
Mike Dunlavey

Ich habe die Frage überarbeitet, ob Sie einen Blick darauf werfen möchten. Vielen Dank.
Mike Dunlavey

1
In Bezug auf Ihre Revision: Ja, , solange Ihre Abtastintervalle lang genug sind, dass jede Beobachtung unabhängig und identisch verteilt ist. Beachten Sie, dass Sie, wenn Sie Bayes'sch sein möchten und eine ungleichmäßige vorherige Verteilung für den erwarteten tatsächlichen Anteil angeben möchten, beiden Parametern etwas anderes hinzufügen können. FBeta(I+1,NI+1)
Sesqu

@sesqu, könnte deine Antwort irgendwie mit meiner Frage hier zusammenhängen: stats.stackexchange.com/questions/147978/… ? Ich würde mich über Ihre Gedanken freuen.
Vicent

1

Im Bayes'schen Land ist die Beta-Verteilung das Konjugat vor dem p-Parameter der Binomialverteilung.


2
Ja, aber warum ist das so?
Vonjd

1

Andere Antworten können nicht kommentiert werden, daher muss ich meine eigene Antwort erstellen.

Posterior = C * Likelihood * Prior (C ist eine Konstante, die Posterior zu 1 integriert)

Gegeben ein Modell, das die Binomialverteilung für die Wahrscheinlichkeit und die Beta-Verteilung für Prior verwendet. Das Produkt der beiden, das den Posterior erzeugt, ist ebenfalls eine Beta-Distribution. Da Prior und Posterior beide Beta sind, handelt es sich um konjugierte Distributionen . Der Prior (ein Beta) wird als konjugierter Prior für die Wahrscheinlichkeit (ein Binom) bezeichnet. Wenn Sie beispielsweise eine Beta mit einer Normalen multiplizieren, ist der Posterior keine Beta mehr. Zusammenfassend sind Beta und Binomial zwei Verteilungen, die in der Bayes'schen Inferenz häufig verwendet werden. Beta ist Conjugate Prior von Binomial, aber die beiden Distributionen sind keine Teilmenge oder Obermenge der anderen.

Die Schlüsselidee der Bayes'schen Inferenz ist, dass wir den Parameter p als Zufallsvariable behandeln, die von [0,1] reicht, was im Gegensatz zum Ansatz der frequentistischen Inferenz steht, bei dem wir den Parameter p als fest behandeln. Wenn Sie sich die Eigenschaften der Beta-Verteilung genau ansehen, werden Sie feststellenαβ , dass der Mittelwert und der Modus ausschließlich durch und , die für den Parameter p irrelevant sind . Dies, zusammen mit seiner Flexibilität, ist der Grund, warum Beta normalerweise als Prior verwendet wird.


1

Zusammenfassung: Es wird oft gesagt, dass Beta-Distribution eine Distribution auf Distributionen ist! Aber was heißt das?

n,kP[Bichn(n,p)k]pP[Bichn(n,p)k]01p01pβ(k,n-k+1)p

Bildbeschreibung hier eingeben


Sei eine Binomial-Zufallsvariable mit Stichproben und der Erfolgswahrscheinlichkeit . Mit der grundlegenden Algebra haben wirBichn(n,p)np

ddpP[Bichn(n,p)=ich]=n(P[Bichn(n-1,p)=ich-1]-P[Bichn(n-1,p)=ich]).

Es hat auch ein paar schöne kombinatorische Beweise. Betrachten Sie es als Übung!

Also haben wir:

ddpP[Bichn(n,p)k]=ddpich=knP[Bichn(n,p)=ich]=n(ich=knP[Bichn(n-1,p)=ich-1]-P[Bichn(n-1,p)=ich])
das ist eine Teleskopserie und kann so vereinfacht werden

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Anmerkung Um eine interaktive Version der Handlung zu sehen, schauen Sie sich diese an . Sie können das Notizbuch herunterladen oder einfach den Binder-Link verwenden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.