Bestimmen Sie die Genauigkeit des Modells, mit der die Wahrscheinlichkeit eines Ereignisses geschätzt wird

Ich modelliere ein Ereignis mit zwei Ergebnissen, a und b. Ich habe ein Modell erstellt, das die Wahrscheinlichkeit abschätzt, dass entweder a oder b eintreten wird (dh das Modell berechnet, dass a mit einer Wahrscheinlichkeit von 40% und b mit einer Wahrscheinlichkeit von 60% eintreten wird).

Ich habe eine große Auflistung der Ergebnisse von Studien mit den Schätzungen aus dem Modell. Ich möchte quantifizieren, wie genau das Modell diese Daten verwendet - ist dies möglich und wenn ja, wie?

predictive-models scoring-rules

— Peter
quelle

Ich könnte mich irren, aber ich denke, Sie interessieren sich für den Trainings- und / oder Testfehler Ihres Modells. Siehe zum Beispiel: cs.ucla.edu/~falaki/pub/classification.pdf

— Stijn

@Stijn Er sagt die Wahrscheinlichkeit voraus, anstatt sie direkt als a oder b zu klassifizieren. Ich denke also nicht, dass diese Metriken das sind, wonach er fragt.

— Michael McGowan

Interessieren Sie sich mehr für die Leistung des Modells im Hinblick auf die Klassifizierung (in diesem Fall scheinen ROC- und AUC-Analysetypen am relevantesten zu sein ( en.wikipedia.org/wiki/Receiver_operating_characteristic )? Oder möchten Sie besser verstehen, wie "kalibriert"? Die Wahrscheinlichkeitsvorhersagen sind (dh bedeutet P (Ergebnis = A) = 60% wirklich 60%, oder nur das Ergebnis = A ist wahrscheinlicher als die anderen Ergebnisse ...

— DavidR

Es hört sich so an, als ob Sie etwas über die Wahrscheinlichkeitsbewertung wissen möchten .

— Whuber

Elvis, ein Artikel in der aktuellen Ausgabe von Decision Analysis, machte mich auf die Wahrscheinlichkeitsbewertung aufmerksam. Es scheint auf umfangreicher Literatur zu diesem Thema aufzubauen. (Ich habe jedoch nur Zugriff auf die Zusammenfassung, daher kann ich den Artikel selbst nicht kommentieren.) Ein Titelblatt der Redaktion der Zeitschrift (das frei verfügbar ist ) erwähnt eine Reihe früherer Artikel zum gleichen Thema.

— whuber

Angenommen, Ihr Modell sagt tatsächlich voraus, dass A eine Chance von 40% und B eine Chance von 60% hat. Unter bestimmten Umständen möchten Sie dies möglicherweise in eine Klassifizierung umwandeln, bei der B vorkommt (da dies wahrscheinlicher ist als A). Einmal in eine Klassifikation umgewandelt, ist jede Vorhersage entweder richtig oder falsch, und es gibt eine Reihe interessanter Möglichkeiten, die richtigen und falschen Antworten zu zählen. Eine ist die Genauigkeit (der Prozentsatz der richtigen Antworten). Andere umfassen Präzision und Rückruf oder F-Maß . Wie andere bereits erwähnt haben, möchten Sie sich möglicherweise die ROC-Kurve ansehen . Darüber hinaus kann Ihr Kontext eine bestimmte Kostenmatrix bereitstellen, die echte Positive anders als echte Negative belohnt und / oder falsche Positive anders als falsche Negative bestraft.

Ich glaube jedoch nicht, dass Sie danach wirklich suchen. Wenn Sie sagten, dass B eine Chance von 60% hat und ich sagte, dass es eine Chance von 99% hat, haben wir sehr unterschiedliche Vorhersagen, obwohl beide in einem einfachen Klassifizierungssystem auf B abgebildet würden. Wenn stattdessen A passiert, irren Sie sich, während ich mich sehr irre, und ich hoffe, dass ich eine härtere Strafe erhalte als Sie. Wenn Ihr Modell tatsächlich Wahrscheinlichkeiten erzeugt, ist eine Bewertungsregel ein Maß für die Leistung Ihrer Wahrscheinlichkeitsvorhersagen. Insbesondere möchten Sie wahrscheinlich eine korrekte Bewertungsregel, was bedeutet, dass die Bewertung für gut kalibrierte Ergebnisse optimiert ist.

B S = \frac{1}{N} \sum_{t = 1}^{N} (f_{t} - o_{t})^{2}

$BS = \frac{1}{N}\sum\limits _{t=1}^{N}(f_t-o_t)^2$

f_{t}

$f_t$

o_{t}

$o_t$

Natürlich kann die Art der Bewertungsregel von der Art des Ereignisses abhängen, das Sie vorhersagen möchten. Dies sollte Ihnen jedoch einige Anregungen für die weitere Forschung geben.

Ich füge eine Einschränkung hinzu: Unabhängig davon, was Sie tun, schlage ich bei dieser Bewertung Ihres Modells vor, dass Sie Ihre Metrik anhand von Daten außerhalb der Stichprobe betrachten (dh Daten, die nicht zum Erstellen Ihres Modells verwendet werden). Dies kann durch Kreuzvalidierung erfolgen . Vielleicht können Sie Ihr Modell einfacher auf einem Datensatz aufbauen und dann auf einem anderen bewerten (wobei darauf zu achten ist, dass keine Rückschlüsse vom Out-of-Sample in die In-Sample-Modellierung gelangen).

— Michael McGowan
quelle