Schätzung der Erfolgswahrscheinlichkeit bei einer Referenzpopulation


11

Angenommen, Sie haben die folgende Situation:

Sie haben im Laufe der Zeit 1000 Bowling-Spieler beobachtet, die jeweils eine relativ kleine Anzahl von Spielen gespielt haben (z. B. 1 bis 20). Sie haben den Trefferprozentsatz für jeden dieser Spieler über die Anzahl der Spiele notiert, die jeder dieser Spieler gespielt hat.

Ein neuer Bowlingspieler kommt herein und spielt 10 Spiele und bekommt 3 Schläge.

Die Verteilung für die Anzahl der Schläge für einen Spieler wird als binomisch angenommen.

Ich möchte die "wahre" Erfolgswahrscheinlichkeit für diesen Spieler abschätzen.

Bitte beachten Sie Folgendes:

  1. Dies ist keine reale Situation oder ein Schulproblem, sondern nur ein Problem des Selbstdenkens.
  2. Ich bin ein Student mit etwas mehr Statistikausbildung als ein Statistikkurs 101. Ich weiß ein wenig über Inferenz wie die Schätzung der maximalen Wahrscheinlichkeit Bescheid ... Sagen Sie mir also gerne Bereiche in Statistiken, über die ich lesen sollte.
  3. Meinem Problem fehlen möglicherweise Informationen, oder wenn es beispielsweise für die Verteilung der Erfolgswahrscheinlichkeit von Vorteil wäre, ungefähr normal zu sein, sagen Sie es mir bitte.

Vielen Dank


Was ist Ihrer Meinung nach die Beziehung zwischen der Wahrscheinlichkeit dieses Spielers und der Wahrscheinlichkeit für jeden der anderen 1000 Spieler? Mit anderen Worten, warum sollten wir die anderen 1000 überhaupt bei der Schätzung des Problems dieses Spielers berücksichtigen?
Rolando2

1
Ich gehe davon aus, dass der wahre Streikprozentsatz des Spielers im Wesentlichen eine Realisierung der gleichen Verteilung der Streikprozentsätze wie die 1000 anderen Spieler ist. Mit anderen Worten, dieser neue Spieler hat nichts Besonderes, er ist nur ein weiterer zufälliger Spieler. Hoffentlich macht das Sinn.
Uwat

Antworten:


10

Dies ist ein großartiges Beispiel, um den Unterschied zwischen frequentistischen und bayesianischen Inferenzansätzen zu veranschaulichen.

Meine erste, vereinfachende Antwort von Frequentisten: Wenn Sie bereits angenommen haben, dass die Verteilung der Streiks binomisch ist, müssen Sie nichts über die anderen 1000 Spieler wissen (außer vielleicht könnten Sie sie verwenden, um Ihre Binomialannahme zu überprüfen).

Sobald Sie die Binomialannahme klar haben, ist Ihre Schätzung sehr einfach: 3/10. Die Varianz dieser Schätzung ist das übliche p (1-p) / n = 0,021.

Grundsätzlich sind die 1000 anderen Spieler irrelevant, es sei denn, Sie denken, dass die Streikverteilung etwas Interessantes und Nicht-Binomiales hat (z. B. werden die Leute besser, wenn sie mehr Spiele spielen).

Eine eher überlegte Bayes'sche Sichtweise: Wenn Sie alternativ daran interessiert sind, das Vorwissen anderer Spieler anzuwenden und der Meinung sind, dass der neue Spieler im Grunde eine neue Stichprobe aus derselben Population ist, sollten Sie es auf Bayesianisch betrachten Begriffe .

Schätzen Sie eine vorherige Verteilung der Spieler. Dazu müssen Sie sich Ihre 1000 Datenpunkte ansehen - die 1000 Spieler, die bereits beobachtet wurden, für die Sie jeweils eine Schätzung der Wahrscheinlichkeit eines Streiks haben. Jeder dieser 1000 Punkte kann nur einen von 21 Werten annehmen (von null auf zwanzig von zwanzig Schlägen), und Sie sehen eine Verteilung über das gesamte Feld. Wenn Sie diese Werte in Proportionen (dh zwischen Null und Eins) umwandeln, kann diese Verteilung wahrscheinlich durch eine Wahrscheinlichkeitsverteilung einer Zufallsvariablen mit a ziemlich gut angenähert werden Beta-Verteilung angenähert werden. Eine Beta-Verteilung ist vollständig durch nur zwei Parameter gekennzeichnet - sagen wir a und b -, aber weil diese Parameter nicht wirklich mit der Verteilung zu tun haben, nach der Sie uns gefragt haben (die Wahrscheinlichkeit eines Streiks des jeweiligen Spielers), sondern mit einer Verteilung auf höherer Ebene, die wir haben Nennen Sie sie Hyperparameter. Sie können Schätzungen dieser Hyperparameter aus Ihren 1000 Datenpunkten auf eine von mehreren Arten erstellen, die für den Hauptpunkt Ihrer Frage nicht wirklich relevant sind.

Bevor Sie überhaupt Informationen über Ihren Spieler haben, ist Ihre beste Vermutung bezüglich seines Anteils an einem Treffer (nennen wir es p) nur der wahrscheinlichste Wert von p aus dieser Beta-Verteilung, die wir gerade angepasst haben.

Wir haben jedoch Daten über unseren eigenen Spieler, nicht nur über die allgemeine Bevölkerung! Wir vertrauen auf Gott, alle anderen müssen Daten mitbringen (ich würde dieses Zitat zuschreiben, wenn ich mich erinnern könnte, wo ich es gefunden habe, sorry). Jedes Mal, wenn wir beobachten, wie unser Spieler ein Spiel spielt und einen Treffer erzielt oder nicht, haben wir eine neue Information, um unsere Schätzung seines Anteils genau zu bestimmen.

Eines der netten Dinge an der Beta-Verteilung als Wahrscheinlichkeitsverteilung für einen Anteil ist, dass die Wahrscheinlichkeitstheorie zeigen kann, dass die neue, verbesserte Schätzung auch ein Beta ist, wenn wir neue Informationen aus Daten sammeln und eine neue, verbesserte Schätzung des Anteils erstellen Distribution - nur eine konzentriertere Version. Dies liegt daran, dass die Beta-Verteilung vor dem Versuch, Schätzungen über ein Binomialmodell vorzunehmen , als Konjugat bezeichnet wird .

Das heißt, wenn wir z von n erfolgreichen Ereignissen beobachten (Spiele mit Streiks in diesem Fall); und die vorherige Verteilung war Beta (a, b); Die posteriore Verteilung (sind Schätzungen der Wahrscheinlichkeitsverteilung von p unter Berücksichtigung der ursprünglichen 1000 Datenpunkte und sind neue Beobachtungen von zehn Spielen) ist Beta (a + z, b + nz) oder (in unserem Fall) Beta (a + 3, b + 7). Wie Sie sehen, sind a und b umso weniger wichtig, je mehr Daten Sie erhalten. Die Mathematik ist ziemlich einfach und in vielen Texten, aber nicht so interessant (für mich jedenfalls).

Wenn Sie R haben, können Sie ein Beispiel sehen, indem Sie den folgenden Code ausführen (und wenn Sie R nicht haben, sollten Sie es bekommen - es ist kostenlos und es ist großartig, um diese Art von Problem zu durchdenken). Dies setzt voraus, dass die vorherige Verteilung der Spieler durch Beta (2,5) modelliert werden kann - dies wurde gerade von mir erfunden. In Wirklichkeit gibt es Möglichkeiten, die Zahlen für a und b besser zu schätzen, als nur 2 und 5 zu bilden, da ich denke, dass die Kurve in Ordnung aussieht.

Wie Sie sehen werden, wenn Sie dieses stilisierte Beispiel ausführen, beträgt die Punktschätzung der Wahrscheinlichkeit des Spielers, einen Treffer zu erzielen, bei einer vorherigen Verteilung von Beta (2,5) 0,29 statt 0,30. Außerdem können wir ein Glaubwürdigkeitsintervall erstellen, das offen gesagt intuitiver und einfacher zu erklären ist als ein Konfidenzintervall (siehe viele Fragen und Diskussionen im Internet über den Unterschied zwischen beiden, einschließlich CrossValidated).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Beobachten Sie dann Ihren neuen Spieler. und berechne eine neue hintere Verteilung für den neuen Spieler. Tatsächlich heißt es: "Wenn man bedenkt, was wir gerade beobachtet haben, wo in der Verteilung der Spieler glauben wir, dass diese Person am wahrscheinlichsten ist?"


2
Ich denke nicht, dass das richtig ist. Angenommen, die überwiegende Mehrheit (99%) der 1000 Menschen hat einen Streikanteil zwischen 5% und 15% und eine Handvoll einen Streikanteil von mehr als 25%. Dann würde ich argumentieren, dass es wahrscheinlicher ist, dass der neue Spieler, den wir beobachtet haben, einen echten Trefferanteil von weniger als 30% hat, aber einfach "Glück gehabt" hat.
Uwat

ok, guter Punkt - Ich habe eine Bearbeitung hinzugefügt, um diese Situation zu berücksichtigen. Grundsätzlich haben Sie eine gute Aussage über ein Bayes'sches Inferenzproblem.
Peter Ellis

@ Peter - alles schön argumentiert.
Rolando2

Danke für deine Antwort. Ich habe jedoch nicht ganz verstanden, was Sie damit gemeint haben: "Sie brauchen eine tatsächliche Verteilung der Streikraten von Einzelpersonen, die wahrscheinlich eine Art Beta sein werden." Können Sie bitte ein wenig klarstellen? Vielen Dank
Uwat

Danke, wirklich gute Frage, ich habe meine Antwort als Antwort stark erweitert.
Peter Ellis
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.