Die kurze Version ist, dass die Beta-Verteilung als Verteilung von Wahrscheinlichkeiten verstanden werden kann - das heißt, sie repräsentiert alle möglichen Werte einer Wahrscheinlichkeit, wenn wir nicht wissen, was diese Wahrscheinlichkeit ist. Hier ist meine bevorzugte intuitive Erklärung dafür:
Jeder, der dem Baseball folgt, kennt sich mit Schlagmitteln aus - einfach mit der Häufigkeit, mit der ein Spieler einen Basisschlag erzielt, dividiert durch die Häufigkeit, mit der er beim Schläger hochgeht (also nur ein Prozentsatz zwischen 0
und 1
). .266
wird im Allgemeinen als ein durchschnittlicher Schlagdurchschnitt angesehen, während er .300
als ein ausgezeichneter angesehen wird.
Stellen Sie sich vor, wir haben einen Baseballspieler, und wir möchten vorhersagen, wie hoch sein saisonaler Schlagdurchschnitt sein wird. Man könnte sagen, wir können nur seinen Schlagdurchschnitt verwenden, aber dies wird zu Beginn einer Saison ein sehr schlechtes Maß sein! Wenn ein Spieler einmal Schläger nach oben geht und bekommt eine einzelne, ist seine Batting Durchschnitt kurz 1.000
, während , wenn er streicht, seine Batting Durchschnitt ist 0.000
. Es wird nicht viel besser, wenn Sie fünf oder sechs Mal aufschlagen - Sie könnten eine Glückssträhne bekommen und einen Durchschnitt von 1.000
, oder eine Pechsträhne bekommen und einen Durchschnitt von 0
, von denen keine ein annähernd guter Prädiktor dafür ist, wie Sie werden in dieser Saison schlagen.
Warum ist Ihr Schlagdurchschnitt in den ersten Treffern kein guter Prädiktor für Ihren späteren Schlagdurchschnitt? Wenn der erste Schlag eines Spielers ein Streik ist, warum sagt niemand voraus, dass er die ganze Saison über nie getroffen wird? Weil wir mit früheren Erwartungen weitermachen . Wir wissen, dass in der Geschichte die meisten Wimper-Durchschnittswerte in einer Saison zwischen ungefähr .215
und lagen .360
, mit einigen äußerst seltenen Ausnahmen auf beiden Seiten. Wir wissen, dass ein Spieler, der zu Beginn ein paar Strikeouts hintereinander hat, möglicherweise schlechter als der Durchschnitt abschneidet, aber wir wissen, dass er wahrscheinlich nicht von diesem Bereich abweichen wird.
In Anbetracht unseres durchschnittlichen Schlagproblems, das durch eine Binomialverteilung (eine Reihe von Erfolgen und Misserfolgen) dargestellt werden kann, ist die Beta-Verteilung der beste Weg, um diese früheren Erwartungen (die wir in der Statistik nur als Prior bezeichnen ) darzustellen. bevor wir gesehen haben, wie der Spieler seinen ersten Schlag ausführt, wie wir ungefähr erwarten, dass sein Schlagdurchschnitt ist. Die Domäne der Beta-Distribution ist (0, 1)
genau wie eine Wahrscheinlichkeit, sodass wir bereits wissen, dass wir auf dem richtigen Weg sind - aber die Eignung der Beta für diese Aufgabe geht weit darüber hinaus.
Wir gehen davon aus, dass der durchschnittliche Trefferwert des Spielers für die gesamte Spielzeit am wahrscheinlichsten .27
ist, dass er jedoch in einem angemessenen Bereich von .21
bis liegen könnte .35
. Dies kann mit einer Beta-Distribution mit den Parametern und :α=81β=219
curve(dbeta(x, 81, 219))
Ich habe mir diese Parameter aus zwei Gründen ausgedacht:
- Der Mittelwert istαα+β=8181+219=.270
- Wie Sie in der Grafik sehen können, liegt diese Verteilung fast vollständig innerhalb
(.2, .35)
des für einen Schlagdurchschnitt angemessenen Bereichs.
Sie haben gefragt, was die x-Achse in einem Beta-Verteilungsdichtediagramm darstellt - hier stellt sie seinen Schlagdurchschnitt dar. Beachten Sie also, dass in diesem Fall nicht nur die y-Achse eine Wahrscheinlichkeit (oder genauer gesagt eine Wahrscheinlichkeitsdichte) ist, sondern auch die x-Achse (der Schlagdurchschnitt ist schließlich nur eine Wahrscheinlichkeit eines Treffers)! Die Beta-Verteilung repräsentiert eine Wahrscheinlichkeitsverteilung von Wahrscheinlichkeiten .
Aber aus diesem Grund ist die Betaverteilung so angemessen. Stellen Sie sich vor, der Spieler bekommt einen einzigen Treffer. Sein Rekord für die Saison ist jetzt 1 hit; 1 at bat
. Wir müssen dann unsere Wahrscheinlichkeiten aktualisieren - wir möchten die gesamte Kurve ein wenig verschieben, um unsere neuen Informationen wiederzugeben. Obwohl die Mathematik, um dies zu beweisen, ein wenig kompliziert ist ( wie hier gezeigt ), ist das Ergebnis sehr einfach . Die neue Beta-Distribution wird sein:
Beta(α0+hits,β0+misses)
Wobei und die Parameter sind, mit denen wir begonnen haben - also 81 und 219. In diesem Fall hat sich also um 1 erhöht (sein einziger Treffer), während sich überhaupt nicht erhöht hat (noch keine Fehler) ). Das heißt, unsere neue Distribution ist oder:α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
Beachten Sie, dass es sich kaum verändert hat - die Veränderung ist für das bloße Auge in der Tat unsichtbar! (Das liegt daran, dass ein Treffer eigentlich nichts bedeutet).
Je mehr der Spieler im Laufe der Saison trifft, desto mehr verschiebt sich die Kurve, um den neuen Beweisen Rechnung zu tragen, und desto enger wird sie, je mehr Beweise wir haben. Sagen wir, in der Mitte der Saison hat er 300 Mal geschlagen und dabei 100 Mal geschlagen. Die neue Distribution wäre oder:Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Beachten Sie, dass die Kurve jetzt sowohl dünner als auch nach rechts verschoben ist (höherer Schlagdurchschnitt), als es früher der Fall war, da wir den Schlagdurchschnitt des Spielers besser einschätzen können.
Eine der interessantesten Ausgaben dieser Formel ist der erwartete Wert der resultierenden Beta-Verteilung, die im Grunde Ihre neue Schätzung ist. Denken Sie daran, dass der erwartete Wert der Beta-Distribution . Nach 100 Treffern von 300 echten Fledermäusen ist der erwartete Wert der neuen Beta-Distribution also Beachten Sie, dass er niedriger als die naive Schätzung ist von , aber höher als die Schätzung, mit der Sie die Saison begonnen haben (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). Sie werden vielleicht bemerken, dass diese Formel der Addition eines "Vorsprungs" zur Anzahl der Treffer und Nicht-Treffer eines Spielers entspricht. Sie sagen, Sie starten ihn in der Saison mit 81 Treffern und 219 Nicht-Treffern in seinem Rekord. ).
Somit ist die Beta - Verteilung am besten für eine probabilistische Verteilung darstellt , von Wahrscheinlichkeiten - den Fall, dass wir nicht wissen , was eine Wahrscheinlichkeit im Voraus, aber wir haben einige vernünftigen Vermutungen.