Wie können wir die Genauigkeit der Vorhersagen von Nate Silver beurteilen?

Erstens gibt er Wahrscheinlichkeit von Ergebnissen. So liegen seine Vorhersagen für die US-Wahlen derzeit bei 82% Clinton gegenüber 18% Trump.

Nun, auch wenn Trump gewinnt, woher weiß ich, dass er nicht nur 18% der Zeit hätte gewinnen sollen?

Das andere Problem ist, dass sich seine Wahrscheinlichkeiten mit der Zeit ändern. Am 31. Juli stand es zwischen Trump und Clinton fast 50:50.

Meine Frage ist, da er jeden Tag eine andere Wahrscheinlichkeit für dasselbe zukünftige Ereignis mit demselben Ergebnis hat, wie kann ich messen, wie genau er für jeden Tag war, an dem er eine Vorhersage auf der Grundlage der Informationen gemacht hat, die bis zu diesem Tag verfügbar waren?

— Dinosauriersuppe
quelle

Ich vermute, wir können nicht. Man braucht einen Goldenen Standard, um eine solche Beurteilung vorzunehmen, und das Beste, was wir haben, sind nur die Beobachtungen aus früheren Wahlen, die schwer zu vergleichen sind (da jede Wahl alternative Methoden für die Stichprobe und das Verhalten der Wähler beinhalten würde). Aber ich bin kein Experte für Wahlumfragen, daher hinterlasse ich dies als Kommentar und nicht als Antwort :)

— Tal Galili

@TalGalili: Wir können zumindest etwas sagen, mit Scoring - Regeln - wie zB wir etwas nicht beobachtbare Parameter kann sagen , dass wir in Regressionen schätzen.

— S. Kolassa - Wiedereinsetzung von Monica

Dies ist wahrscheinlich eine "Bewertungsregel", aber multiplizieren Sie für n Ereignisse seine Wahrscheinlichkeit für das Auftreten dieser Ereignisse und nehmen Sie die n-te Wurzel, um eine durchschnittliche Art von Vorhersagerate zu erhalten (wir gehen davon aus, dass er niemals 0% Vorhersagen macht). Sie können jede tägliche Wahrscheinlichkeit als separate Vorhersage betrachten.

— Barrycarter

Warum können sich Wahrscheinlichkeiten nicht mit der Zeit ändern? Ändern sich bei einem Sportereignis nicht die Quoten, wenn ein Tor erzielt oder ein Heimspiel geschlagen wird?

— Rodrigo de Azevedo

Silvers Modell gibt viel mehr als nur eine Wahrscheinlichkeitsschätzung - es gibt eine geschätzte Gewinnspanne, die aus Gewinnwahrscheinlichkeiten und Gewinnspannen für jeden der 50 Staaten abgeleitet wird. Das heißt, es wird eine Punktschätzung und ein Fehlerintervall für 50 verschiedene Messungen angegeben (wenn auch mit einem gewissen - wahrscheinlich hohen - Korrelationsgrad) und nicht nur ein einzelnes binäres Ergebnis vorhergesagt.

— Micah

Antworten:

Probabilistische Vorhersagen (oder auch Dichtevorhersagen genannt) können mit Hilfe von Bewertungsregeln bewertet werden , dh Funktionen, die eine Dichtevorhersage und ein beobachtetes Ergebnis auf einen sogenannten Score abbilden, dessen Erwartungswert bei der Dichtevorhersage minimiert wird in der Tat ist die wahre Dichte vorherzusagen. Richtige Bewertungsregeln sind Bewertungsregeln, deren Erwartung nur durch die tatsächliche zukünftige Dichte minimiert wird.

Es gibt eine ganze Reihe solcher Bewertungsregeln, beginnend mit Brier (1950, Monthly Weather Review ) im Zusammenhang mit der probabilistischen Wettervorhersage. Czado et al. (2009, Biometrics ) geben einen neueren Überblick für den Einzelfall. Gneiting & Katzfuss (2014, Annual Review of Statistics and its Application ) geben einen Überblick über probabilistische Prognosen im Allgemeinen - Gneiting im Besonderen hat die Gründe für angemessene Bewertungsregeln sehr aktiv vorangetrieben .

Bewertungsregeln sind jedoch etwas schwierig zu interpretieren und helfen nur beim Vergleich mehrerer wahrscheinlichkeitstheoretischer Vorhersagen - die mit der niedrigeren Bewertung ist besser. Das heißt, bis zur Stichprobenvariation ist es immer besser, viele Vorhersagen auszuwerten, deren Werte wir mitteln würden.

Wie man die "Aktualisierung" der Prognosen von Silver oder anderen einbezieht, ist eine gute Frage. Wir können Bewertungsregeln verwenden, um "Schnappschüsse" verschiedener Prognosen zu einem bestimmten Zeitpunkt zu vergleichen, oder wir können sogar die probabilistischen Prognosen von Silver im Zeitverlauf betrachten und die Punktzahlen zu jedem Zeitpunkt berechnen. Man würde hoffen, dass die Punktzahl immer niedriger wird (dh die Dichtevorhersagen werden immer besser), je näher das tatsächliche Ergebnis rückt.

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

Anders ausgedrückt: Die individuell prognostizierte Wahrscheinlichkeit eines eindeutigen Ereignisses kann nicht allein bewertet werden, sondern Prognostiker können (durch Bewertungsfunktionen) bewertet werden.

— kjetil b halvorsen

Für "ist in der Erwartung minimiert", denke ich, ist das Hauptproblem die Erwartung über welches Ensemble? Nehmen wir alle Vorhersagen von Nate Silver an? Nur die über Präsidentschaftswahlen? Ich weiß nicht, ob es hier eine einzige Antwort gibt. Für den Vergleich verschiedener Prognostiker können Vorhersagen für alle gängigen Ereignisse sinnvoll sein.

— GeoMatt22

@ GeoMatt22 - er hat recht ähnliche Methodik für andere Wahlen, so dass es gültig ist, alle Wahlprognosen zu aggregieren

— DVK

In Nate Silvers Buch The Signal and the Noise schreibt er Folgendes, das möglicherweise einen Einblick in Ihre Frage bietet:

Einer der wichtigsten Tests einer Prognose - ich würde behaupten, es ist der wichtigste - heißt Kalibrierung. Wie oft hat es tatsächlich geregnet, obwohl Sie eine Regenwahrscheinlichkeit von 40% angegeben haben? Wenn es auf lange Sicht wirklich ungefähr 40% der Zeit geregnet hat, bedeutet dies, dass Ihre Vorhersagen gut kalibriert waren. Wenn es stattdessen nur 20 Prozent der Zeit oder 60 Prozent der Zeit regnete, war dies nicht der Fall.

Das wirft also ein paar Punkte auf. Zunächst einmal können Sie, wie Sie zu Recht betonen, anhand des Ergebnisses des Ereignisses, das Sie prognostizieren, keine Aussage über die Qualität einer einzelnen Prognose treffen. Das Beste, was Sie tun können, ist zu sehen, wie sich Ihr Modell im Verlauf vieler Vorhersagen verhält.

Eine weitere wichtige Überlegung ist, dass die Vorhersagen von Nate Silver kein Ereignis selbst sind, sondern die Wahrscheinlichkeitsverteilung des Ereignisses. Im Falle eines Präsidentenrennens schätzt er die Wahrscheinlichkeitsverteilung, mit der Clinton, Trump oder Johnson das Rennen gewinnen. In diesem Fall schätzt er eine multinomiale Verteilung.

Tatsächlich prognostiziert er das Rennen aber weitaus genauer. Seine Vorhersagen schätzen die Wahrscheinlichkeitsverteilungen des Prozentsatzes der Stimmen, die jeder Kandidat in jedem Staat erhalten wird. Wenn wir also 3 Kandidaten betrachten, könnte dies durch einen Zufallsvektor der Länge 51 * 3 charakterisiert werden, der Werte im Intervall [0, 1] annimmt, unter der Bedingung, dass die Proportionen für die Proportionen innerhalb eines Zustands zu 1 addieren. Die Zahl 51 ist, weil andere 50 Staaten + DC sind (und ich denke, es sind tatsächlich ein paar mehr, weil einige Staaten ihre Wahlkollegialstimmen aufteilen können), und die Zahl 3 ist auf die Anzahl der Kandidaten zurückzuführen.

Jetzt haben Sie nicht sehr viele Daten, mit denen Sie seine Vorhersagen bewerten können - er hat nur Vorhersagen für die letzten 3 Wahlen geliefert, die mir bekannt sind (gab es mehr?). Daher glaube ich nicht, dass es eine Möglichkeit gibt, sein Modell fair zu bewerten, es sei denn, Sie hatten das Modell tatsächlich in der Hand und konnten es anhand simulierter Daten bewerten. Aber es gibt noch einige interessante Dinge, die Sie anschauen könnten. Ich denke zum Beispiel, es wäre interessant zu sehen, wie genau er die Stimmanteile von Bundesstaat zu Bundesstaat zu einem bestimmten Zeitpunkt vorhergesagt hat, z. B. eine Woche vor der Wahl. Wenn Sie dies für mehrere Zeitpunkte wiederholen, z. B. für eine Woche, einen Monat, 6 Monate und ein Jahr, können Sie einige interessante Erklärungen für seine Vorhersagen abgeben. Eine wichtige Einschränkung: Die Ergebnisse sind in den einzelnen Bundesstaaten einer Wahl stark korreliert, sodass Sie nicht wirklich sagen können, dass Sie 51 * 3 Bundesstaaten-unabhängige Vorhersageinstanzen haben. . Aber vielleicht würde ich sowieso so darüber nachdenken, nur damit Sie genug Daten haben, um irgendetwas Sinnvolles damit zu tun.

— dpritch
quelle

Für jede einzelne Vorhersage können Sie nicht mehr als wir sagen, ob die Behauptung "Diese Münze hat eine 60% ige Chance, Köpfe hochzuziehen" von einem einzigen Wurf beinahe richtig ist.

Sie können jedoch seine Methodik anhand vieler Vorhersagen beurteilen - für eine bestimmte Wahl macht er viele Vorhersagen, nicht nur über die Präsidentschaftswahl insgesamt, sondern auch über die Wahl des Präsidenten und über viele andere Rassen (House, Senat, Gubnertorial) und so weiter), und er wendet im Laufe der Zeit auch weitgehend ähnliche Methoden an.

Es gibt viele Möglichkeiten, diese Einschätzung durchzuführen (einige davon sind ziemlich ausgefeilt), aber wir können uns einige relativ einfache Möglichkeiten ansehen, um einen Eindruck davon zu bekommen. Beispielsweise könnten Sie die Vorhersagen der Wahrscheinlichkeit eines Gewinns in Bänder von z. B. (50-55%, 55-65% usw.) aufteilen und dann sehen, welcher Anteil der Vorhersagen in diesem Band aufgetreten ist. Der Anteil der 50-55% Prognosen, die sich bewährt haben, sollte zwischen 50-55% liegen, je nachdem, wo der Durchschnitt lag (zuzüglich einer Spanne für zufällige Abweichungen *).

Durch diesen Ansatz (oder verschiedene andere Ansätze) können Sie sehen, ob die Verteilung der Ergebnisse mit den Vorhersagen über eine Wahl oder über mehrere Wahlen konsistent war (wenn ich mich recht entsinne, denke ich, dass seine Vorhersagen öfter richtig waren, als sie hätten sein sollen) , was darauf hindeutet, dass seine Standardfehler im Durchschnitt leicht überschätzt wurden).

* Wir müssen vorsichtig sein, wie wir das beurteilen, da die Vorhersagen nicht unabhängig sind.

— Glen_b - Setzen Sie Monica wieder ein
quelle