Was ist die Intuition hinter der Betaverteilung?


438

Haftungsausschluss: Ich bin kein Statistiker, sondern ein Software-Ingenieur. Der größte Teil meiner statistischen Kenntnisse stammt aus der Selbsterziehung, daher habe ich immer noch viele Lücken im Verständnis von Konzepten, die für andere hier trivial erscheinen könnten. Daher wäre ich sehr dankbar, wenn die Antworten weniger spezifische Begriffe und mehr Erklärungen enthalten würden. Stell dir vor, du sprichst mit deiner Oma :)

Ich versuche, die Art der Betaverteilung zu verstehen - wofür sie verwendet werden sollte und wie sie in jedem Fall zu interpretieren ist. Wenn wir zum Beispiel von Normalverteilung sprechen, könnte man es als Ankunftszeit eines Zuges bezeichnen: Am häufigsten kommt es gerade rechtzeitig an, etwas seltener ist es 1 Minute früher oder 1 Minute zu spät und sehr selten kommt es mit Unterschied an von 20 Minuten vom Mittelwert. Die einheitliche Verteilung beschreibt insbesondere die Chance jedes Lottospielscheins. Die Binomialverteilung kann mit Münzwurf usw. beschrieben werden. Aber gibt es eine solche intuitive Erklärung für die Betaverteilung ?

Nehmen wir an, und . Die sieht in diesem Fall so aus (generiert in R):α=.99β=.5B(α,β)

Bildbeschreibung hier eingeben

Aber was heißt das eigentlich? Die Y-Achse ist offensichtlich eine Wahrscheinlichkeitsdichte, aber was ist auf der X-Achse?

Ich würde mich sehr über jede Erklärung freuen, sei es mit diesem oder einem anderen Beispiel.


13
Die y-Achse ist keine Wahrscheinlichkeit (was offensichtlich ist, weil per Definition eine Wahrscheinlichkeit nicht außerhalb des Intervalls , aber diese Darstellung erstreckt sich bis zu und - im Prinzip - bis zu ). Es ist eine Wahrscheinlichkeitsdichte : eine Wahrscheinlichkeit pro Einheit von (und Sie haben als Rate beschrieben). [0,1]50xx
Whuber

4
@whuber: Ja, ich verstehe, was PDF ist - das war nur ein Fehler in meiner Beschreibung. Vielen Dank für einen gültigen Hinweis!
Freund

1
Ich werde versuchen, die Referenz zu finden, aber ich kenne einige der bizarreren Formen für die verallgemeinerte Beta-Verteilung mit der Form die Anwendungen wie Physik haben. Sie können es auch an Experten-Daten (min, mode, max) in datenarmen Umgebungen anpassen, und es ist häufig besser als die Verwendung einer dreieckigen Verteilung (die leider häufig von IEs verwendet wird). a+(ba)Beta(α1,α2)
SecretAgentMan

Sie sind offenbar noch nie mit der Deutschen Bahn gefahren. Sie wären weniger optimistisch.
Henning

Antworten:


621

Die kurze Version ist, dass die Beta-Verteilung als Verteilung von Wahrscheinlichkeiten verstanden werden kann - das heißt, sie repräsentiert alle möglichen Werte einer Wahrscheinlichkeit, wenn wir nicht wissen, was diese Wahrscheinlichkeit ist. Hier ist meine bevorzugte intuitive Erklärung dafür:

Jeder, der dem Baseball folgt, kennt sich mit Schlagmitteln aus - einfach mit der Häufigkeit, mit der ein Spieler einen Basisschlag erzielt, dividiert durch die Häufigkeit, mit der er beim Schläger hochgeht (also nur ein Prozentsatz zwischen 0und 1). .266wird im Allgemeinen als ein durchschnittlicher Schlagdurchschnitt angesehen, während er .300als ein ausgezeichneter angesehen wird.

Stellen Sie sich vor, wir haben einen Baseballspieler, und wir möchten vorhersagen, wie hoch sein saisonaler Schlagdurchschnitt sein wird. Man könnte sagen, wir können nur seinen Schlagdurchschnitt verwenden, aber dies wird zu Beginn einer Saison ein sehr schlechtes Maß sein! Wenn ein Spieler einmal Schläger nach oben geht und bekommt eine einzelne, ist seine Batting Durchschnitt kurz 1.000, während , wenn er streicht, seine Batting Durchschnitt ist 0.000. Es wird nicht viel besser, wenn Sie fünf oder sechs Mal aufschlagen - Sie könnten eine Glückssträhne bekommen und einen Durchschnitt von 1.000, oder eine Pechsträhne bekommen und einen Durchschnitt von 0, von denen keine ein annähernd guter Prädiktor dafür ist, wie Sie werden in dieser Saison schlagen.

Warum ist Ihr Schlagdurchschnitt in den ersten Treffern kein guter Prädiktor für Ihren späteren Schlagdurchschnitt? Wenn der erste Schlag eines Spielers ein Streik ist, warum sagt niemand voraus, dass er die ganze Saison über nie getroffen wird? Weil wir mit früheren Erwartungen weitermachen . Wir wissen, dass in der Geschichte die meisten Wimper-Durchschnittswerte in einer Saison zwischen ungefähr .215und lagen .360, mit einigen äußerst seltenen Ausnahmen auf beiden Seiten. Wir wissen, dass ein Spieler, der zu Beginn ein paar Strikeouts hintereinander hat, möglicherweise schlechter als der Durchschnitt abschneidet, aber wir wissen, dass er wahrscheinlich nicht von diesem Bereich abweichen wird.

In Anbetracht unseres durchschnittlichen Schlagproblems, das durch eine Binomialverteilung (eine Reihe von Erfolgen und Misserfolgen) dargestellt werden kann, ist die Beta-Verteilung der beste Weg, um diese früheren Erwartungen (die wir in der Statistik nur als Prior bezeichnen ) darzustellen. bevor wir gesehen haben, wie der Spieler seinen ersten Schlag ausführt, wie wir ungefähr erwarten, dass sein Schlagdurchschnitt ist. Die Domäne der Beta-Distribution ist (0, 1)genau wie eine Wahrscheinlichkeit, sodass wir bereits wissen, dass wir auf dem richtigen Weg sind - aber die Eignung der Beta für diese Aufgabe geht weit darüber hinaus.

Wir gehen davon aus, dass der durchschnittliche Trefferwert des Spielers für die gesamte Spielzeit am wahrscheinlichsten .27ist, dass er jedoch in einem angemessenen Bereich von .21bis liegen könnte .35. Dies kann mit einer Beta-Distribution mit den Parametern und :α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Ich habe mir diese Parameter aus zwei Gründen ausgedacht:

  • Der Mittelwert istαα+β=8181+219=.270
  • Wie Sie in der Grafik sehen können, liegt diese Verteilung fast vollständig innerhalb (.2, .35)des für einen Schlagdurchschnitt angemessenen Bereichs.

Sie haben gefragt, was die x-Achse in einem Beta-Verteilungsdichtediagramm darstellt - hier stellt sie seinen Schlagdurchschnitt dar. Beachten Sie also, dass in diesem Fall nicht nur die y-Achse eine Wahrscheinlichkeit (oder genauer gesagt eine Wahrscheinlichkeitsdichte) ist, sondern auch die x-Achse (der Schlagdurchschnitt ist schließlich nur eine Wahrscheinlichkeit eines Treffers)! Die Beta-Verteilung repräsentiert eine Wahrscheinlichkeitsverteilung von Wahrscheinlichkeiten .

Aber aus diesem Grund ist die Betaverteilung so angemessen. Stellen Sie sich vor, der Spieler bekommt einen einzigen Treffer. Sein Rekord für die Saison ist jetzt 1 hit; 1 at bat. Wir müssen dann unsere Wahrscheinlichkeiten aktualisieren - wir möchten die gesamte Kurve ein wenig verschieben, um unsere neuen Informationen wiederzugeben. Obwohl die Mathematik, um dies zu beweisen, ein wenig kompliziert ist ( wie hier gezeigt ), ist das Ergebnis sehr einfach . Die neue Beta-Distribution wird sein:

Beta(α0+hits,β0+misses)

Wobei und die Parameter sind, mit denen wir begonnen haben - also 81 und 219. In diesem Fall hat sich also um 1 erhöht (sein einziger Treffer), während sich überhaupt nicht erhöht hat (noch keine Fehler) ). Das heißt, unsere neue Distribution ist oder:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

Bildbeschreibung hier eingeben

Beachten Sie, dass es sich kaum verändert hat - die Veränderung ist für das bloße Auge in der Tat unsichtbar! (Das liegt daran, dass ein Treffer eigentlich nichts bedeutet).

Je mehr der Spieler im Laufe der Saison trifft, desto mehr verschiebt sich die Kurve, um den neuen Beweisen Rechnung zu tragen, und desto enger wird sie, je mehr Beweise wir haben. Sagen wir, in der Mitte der Saison hat er 300 Mal geschlagen und dabei 100 Mal geschlagen. Die neue Distribution wäre oder:Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

Bildbeschreibung hier eingeben

Beachten Sie, dass die Kurve jetzt sowohl dünner als auch nach rechts verschoben ist (höherer Schlagdurchschnitt), als es früher der Fall war, da wir den Schlagdurchschnitt des Spielers besser einschätzen können.

Eine der interessantesten Ausgaben dieser Formel ist der erwartete Wert der resultierenden Beta-Verteilung, die im Grunde Ihre neue Schätzung ist. Denken Sie daran, dass der erwartete Wert der Beta-Distribution . Nach 100 Treffern von 300 echten Fledermäusen ist der erwartete Wert der neuen Beta-Distribution also Beachten Sie, dass er niedriger als die naive Schätzung ist von , aber höher als die Schätzung, mit der Sie die Saison begonnen haben (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). Sie werden vielleicht bemerken, dass diese Formel der Addition eines "Vorsprungs" zur Anzahl der Treffer und Nicht-Treffer eines Spielers entspricht. Sie sagen, Sie starten ihn in der Saison mit 81 Treffern und 219 Nicht-Treffern in seinem Rekord. ).

Somit ist die Beta - Verteilung am besten für eine probabilistische Verteilung darstellt , von Wahrscheinlichkeiten - den Fall, dass wir nicht wissen , was eine Wahrscheinlichkeit im Voraus, aber wir haben einige vernünftigen Vermutungen.


5
@ Freund: Ich bin froh, dass es geholfen hat - ich hoffe, Sie folgen Baseball (ansonsten frage ich mich, ob es verständlich ist!)
David Robinson

11
Hier ist ein ähnliches Beispiel von John Cook, das binäre Amazon-Verkäuferrankings mit unterschiedlicher Anzahl von Bewertungen verwendet. Besonders aufschlussreich
Dimitriy V. Masterov

4
Sie sollten darauf hinweisen, dass die vorherige Version nicht Beta-verteilt sein muss (es sei denn, Sie gehen mit der vorherigen Jeffreys, - nur die Wahrscheinlichkeit muss Beta-verteilt sein.α0=β0=1/2
Neil G

4
+ Ich mag Ihre Erklärung, wie Sie die Distribution aktualisieren, wenn Sie mehr Daten haben.
Mike Dunlavey

2
@ user27997 Diese Werte ergaben den gewünschten Mittelwert von 0,27 und eine Standardabweichung, die für Schlagmittelwerte sehr realistisch ist (ca. 0,025). Nebenbei bemerkt, gebe ich eine Erklärung, wie α und β von einem gewünschten Mittelwert und die Varianz berechnen hier .
David Robinson

48

Mit einer Beta-Distribution werden Dinge modelliert, die einen begrenzten Bereich haben, z. B. 0 bis 1.

Beispiele sind die Erfolgswahrscheinlichkeit eines Experiments mit nur zwei Ergebnissen, wie Erfolg und Misserfolg. Wenn Sie eine begrenzte Anzahl von Experimenten durchführen und einige erfolgreich sind, können Sie das, was Ihnen das sagt, durch eine Betaverteilung darstellen.

Ein weiteres Beispiel ist die Auftragsstatistik . Wenn Sie beispielsweise mehrere (z. B. 4) einheitliche 0,1-Zufallszahlen generieren und sortieren, wie ist die Verteilung der dritten?

Ich benutze sie, um die Software-Leistungsdiagnose anhand von Stichproben zu verstehen. Wenn Sie ein Programm zufällig Mal anhalten und Mal sehen, dass es etwas tut, das Sie tatsächlich loswerden könnten, und , wird der Zeitanteil, der dadurch eingespart werden muss, durch und der Beschleunigungsfaktor hat eine BetaPrime- Verteilung.nss>1Beta(s+1,(ns)+1)

Mehr dazu ...


41

Die Beta-Verteilung erscheint auch als Ordnungsstatistik für eine Zufallsstichprobe von unabhängigen Gleichverteilungen auf .(0,1)

Genauer gesagt, lassen , , seine unabhängige Zufallsvariablen, die jeweils die gleichmäßige Verteilung auf . Bezeichnen Sie mit , , die Ordnungsstatistik der Zufallsstichprobe , die durch Sortieren der Werte von , , in aufsteigender Reihenfolge definiert wird. Insbesondere und . Dann kann man zeigen, dass für jedes .U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

Dieses Ergebnis zeigt, dass die Beta-Verteilungen natürlich in der Mathematik vorkommen und einige interessante Anwendungen in der Mathematik haben.


28

Es gibt zwei Hauptmotive:

Erstens ist die Beta-Verteilung vor der Bernoulli-Verteilung konjugiert. Das heißt, wenn Sie eine unbekannte Wahrscheinlichkeit wie die Vorspannung einer Münze haben, die Sie durch wiederholte Münzwürfe schätzen, ist die Wahrscheinlichkeit, die durch eine Folge von Münzwürfen auf die unbekannte Vorspannung ausgeübt wird, Beta-verteilt.

Zweitens ist die Beta-Verteilung als exponentielle Familie die maximale Entropieverteilung für eine Reihe ausreichender Statistiken. In der Beta-Distribution lauten diese Statistiken und für in . Das heißt, wenn Sie nur den Durchschnitt dieser ausreichenden Statistiken für eine Gruppe von Stichproben , können Sie als Mindestannahme für die Verteilung der Stichproben annehmen, dass sie Beta-verteilt sind.log(x)log(1x)x[0,1]x1,,xn

Die Betaverteilung ist nicht speziell für die allgemeine Modellierung von Dingen über [0,1], da viele Verteilungen auf diese Unterstützung gekürzt werden können und in vielen Fällen besser anwendbar sind.


23

Bildbeschreibung hier eingeben

Nehmen wir an, ein Verkäufer auf einer E-Commerce-Website erhält 500 Bewertungen, von denen 400 gut und 100 schlecht sind.

Wir sehen dies als Ergebnis eines Bernoulli-Experiments der Länge 500, das zu 400 Erfolgen (1 = gut) führte, während die zugrunde liegende Wahrscheinlichkeit unbekannt ist.p

Die naive Qualität in Bezug auf die Bewertungen des Verkäufers beträgt 80%, weil 0,8 = 400/500. Aber die "wahre" Qualität in Bezug auf Bewertungen, die wir nicht kennen.

Theoretisch könnte auch ein Verkäufer mit einer "wahren" Qualität von 400 von 500 Bewertungen erhalten haben.p=77%

Die spitze Balkengrafik im Bild gibt an, wie oft es in einer Simulation vorkam, dass für einen gegebenen angenommenen "wahren" 400 von 500 Bewertungen gut war. Das Balkendiagramm ist die Dichte des Histogramms des Simulationsergebnisses.p

Und wie Sie sehen können, umgibt die Dichtekurve der Beta-Verteilung für und (orange) das Balkendiagramm (die Dichte des Histogramms für die Simulation) eng.α=400+1β=100+1

Die Beta-Verteilung definiert also im Wesentlichen die Wahrscheinlichkeit, dass die Erfolgswahrscheinlichkeit eines Bernoulli-Experiments bei gegebenem Ergebnis des Experiments ist .p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-der-beta-verteilung/


3
Danke für Ihren Beitrag! Ich bin verwirrt über etwas, aber: obwohl das Histogramm Legende besagt , zeigen sie Beta - Dichten, Sie scheinen diese auch zu behaupten , die Ergebnisse beschreiben binomischen Simulationen ( „wie oft es in einer Simulation passiert“). Aber die beiden sind verschiedene Dinge, obwohl sie in der Abbildung ziemlich nahe beieinander liegen. (Dies ist eine Konsequenz der
Fast

Das ist ein guter Punkt! Aber ich bin nicht sicher, wie ich es richtig umformulieren soll. Wenn ich nur das Histogramm aufzeichnen würde, würden Sie angesichts der Größe natürlich nicht viel von der Dichte sehen. Also ja, das Histogramm ist eigentlich, glaube ich, nicht nur verkleinert, sondern tatsächlich die (geschätzte) Dichte des ursprünglichen Histogramms. Angesichts der Anzahl der Durchläufe könnte ich auch einen Faktor herausfinden und linear verkleinern, aber es würde fast genauso aussehen. PLUS, was ich (eigentlich) vergleichen möchte, ist die Dichte von Beta mit der Dichte des Simulationsergebnisses (das) Dichte des ursprünglichen Histogramms).
Raffael

8

Bisher deckte das Überwiegen der Antworten die Gründe für Beta-RVs ab, die wie zuvor für Stichprobenanteile generiert wurden, und eine clevere Antwort bezog Beta-RVs auf Bestellstatistiken.

Beta-Verteilungen ergeben sich auch aus einer einfachen Beziehung zwischen zwei Gamma (k_i, 1) -RVs. I = 1,2 nennt sie X und Y. X / (X + Y) hat eine Beta-Verteilung.

Gamma-Wohnmobile haben bereits ihre Beweggründe bei der Modellierung der Ankunftszeiten für unabhängige Ereignisse, daher werde ich darauf nicht eingehen, da es nicht Ihre Frage ist. Ein "Bruchteil der Zeit", die aufgewendet wurde, um eine von zwei Aufgaben zu erledigen, die nacheinander ausgeführt wurden, bietet sich natürlich für eine Beta-Distribution an.


1
+1 Vielen Dank, dass Sie darauf hingewiesen haben, wie Sie mit Gamma eine Beta-Distribution erstellen können. Ich habe gehört, wenn Sie die Beta zu einem Dirichlet verallgemeinern wollen, geben Sie einfach mehr Gammas in den Nenner. Vielleicht weiß ein Statistiker das einfach, aber für mich war das wirklich nützlich, wenn man sich die Vertrauensbereiche einer kategorialen Beobachtung ansieht.
Mike Dunlavey

4

Meiner Intuition nach "wiegt" es sowohl den aktuellen Erfolgsanteil " " als auch den aktuellen Misserfolgsanteil " ": . Wobei die Konstante . Das ist wie ein "Gewicht" für den Beitrag des Erfolgs. Das ist wie ein "Gewicht" für den Beitrag des Scheiterns. Sie haben einen zweidimensionalen Parameterraum (einen für den Beitrag zum Erfolg und einen für den Beitrag zum Misserfolg), der es schwierig macht, darüber nachzudenken und es zu verstehen.x(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

Im genannten Beispiel lauten die Parameter Alpha = 81 und Beta = 219 aus dem Vorjahr [81 Treffer in 300 bei Fledermäusen oder (81 und 300 - 81 = 219)].

Ich weiß nicht, wie sie die vorherige Annahme von 81 Hits und 219 Outs nennen, aber auf Englisch ist das die A-priori-Annahme.

Beachten Sie, wie sich die Kurve im Verlauf der Saison nach links oder rechts und die Modalwahrscheinlichkeit nach links oder rechts verschiebt, aber es gibt immer noch eine Kurve.

Ich frage mich, ob die Laa of Large Numbers sich irgendwann durchsetzt und den Schlagdurchschnitt auf 0,270 zurückbringt.

Um das Alpha und Beta im Allgemeinen zu schätzen, würde man die vollständige Anzahl früherer Vorkommnisse (bei Fledermäusen) nehmen, den Schlagdurchschnitt als bekannt, die Gesamthits (das Alpha), das Beta oder die Gesamtsumme abzüglich der Ausfälle erhalten und voila - Du hast deine Formel. Bearbeiten Sie dann die zusätzlichen Daten wie gezeigt.


2

Die Beta-Verteilung ist sehr nützlich, wenn Sie mit der Partikelgrößenverteilung arbeiten. Dies ist nicht der Fall, wenn Sie eine Kornverteilung modellieren möchten. In diesem Fall ist es besser, die nicht rechts begrenzte Tanh-Verteilung . F(X)=tanh((x/p)n)

Übrigens, was ist los, wenn Sie eine Größenverteilung aus einer mikroskopischen Beobachtung erstellen und eine Partikelverteilung in der Anzahl haben und Ihr Ziel ist es, mit einer Volumenverteilung zu arbeiten? Es ist fast obligatorisch, die Originalverteilung in der rechts angegebenen Anzahl zu erhalten. Die Umwandlung ist also konsistenter, da Sie sicher sind, dass in der neuen Volumenverteilung weder ein Modus noch ein Median oder eine mittlere Größe außerhalb des Intervalls angezeigt wird, in dem Sie arbeiten. Außerdem vermeiden Sie den Grönland-Afrika-Effekt.

Die Transformation ist sehr einfach, wenn Sie regelmäßige Formen haben, dh eine Kugel oder ein Prisma. Sie sollten dem Alpha-Parameter der Zahl-Beta-Verteilung drei Einheiten hinzufügen und die Volumenverteilung erhalten.


1
Willkommen auf der Seite. War dies als Antwort auf die Frage des OP gedacht? Können Sie erklären, wie dies mit der Intuition hinter der Beta-Distribution zusammenhängt?
gung

Bitte redigieren Sie, um die Intuition über eine Betaverteilung zu klären.
Glen_b

1

Ich denke, hinter der Beta-Distribution steckt KEINE Intuition! Die Beta-Distribution ist nur eine sehr flexible Distribution mit FIX-Bereich! Und für Integer a und b ist es sogar einfach, damit umzugehen. Auch viele Sonderfälle der Beta haben ihre native Bedeutung, wie die Gleichverteilung. Wenn die Daten also so oder mit etwas mehr Flexibilität modelliert werden müssen, ist die Beta eine sehr gute Wahl.


0

In einer weiteren Frage zur Betaverteilung wird die folgende Intuition hinter der Betaverteilung gegeben:

Mit anderen Worten kann die Beta-Verteilung als Verteilung der Wahrscheinlichkeiten im Zentrum einer zitternden Verteilung angesehen werden.

Einzelheiten finden Sie in der vollständigen Antwort unter https://stats.stackexchange.com/a/429754/142758

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.