Alle bisher gegebenen Antworten sind hilfreich, aber statistisch nicht sehr genau, daher werde ich darauf zurückgreifen. Gleichzeitig werde ich eine allgemeine Antwort geben, anstatt mich auf diese Wahl zu konzentrieren.
Das erste, was Sie beachten sollten, wenn Sie versuchen, Fragen zu realen Ereignissen wie dem Wahlsieg von Clinton zu beantworten, im Gegensatz zu erfundenen mathematischen Problemen wie dem Herausnehmen von Bällen in verschiedenen Farben aus einer Urne, ist, dass es keine gibt. t Eine eindeutige, vernünftige Antwort auf die Frage und daher keine eindeutige, vernünftige Antwort. Wenn jemand nur sagt, "Hillary hat eine 75% ige Gewinnchance", und das Modell der Wahl, die Daten, die sie für ihre Schätzungen verwendet haben, die Ergebnisse ihrer Modellvalidierung, ihre Hintergrundannahmen, ob sie es sind, nicht beschreibt Wenn Sie sich auf die Volksabstimmung, die Wahlabstimmung usw. beziehen, dann haben sie Ihnen nicht wirklich gesagt, was sie bedeuten, geschweige denn, Sie haben genug Informationen geliefert, um zu bewerten, ob ihre Vorhersage gut ist. Außerdem ist es nicht
Mit welchen Verfahren kann ein Statistiker Clintons Chancen einschätzen? Wie könnten sie das Problem tatsächlich umrahmen? Auf hoher Ebene gibt es verschiedene Vorstellungen von der Wahrscheinlichkeit selbst, von denen zwei die häufigste und die Bayes'sche sind.
In einer häufigeren Ansicht repräsentiert eine Wahrscheinlichkeit die Grenzfrequenz eines Ereignisses über viele unabhängige Versuche desselben Experiments, wie im Gesetz der großen Zahlen (stark oder schwach). Auch wenn eine bestimmte Wahl ein einzigartiges Ereignis ist, kann ihr Ergebnis als Unentschieden aus einer unendlichen Anzahl von historischen und hypothetischen Ereignissen angesehen werden, die alle amerikanischen Präsidentschaftswahlen oder alle Wahlen weltweit im Jahr 2016 oder etwas anderes umfassen könnten. Eine 75% ige Chance auf einen Clinton-Sieg bedeutet, dass, wenn eine Folge von Ergebnissen (0 oder 1) unabhängiger Wahlen ist, die für unser Modell dieser Wahl völlig gleichwertig sind, der Stichprobenmittelwert von konvergiert mit einer Wahrscheinlichkeit von .75 alsX 1 , X 2 , ... , X n nX1,X2,…X1,X2,…,Xnn geht ins Unendliche.
In einer Bayes'schen Sichtweise repräsentiert eine Wahrscheinlichkeit einen Grad an Glaubwürdigkeit oder Glaubwürdigkeit (der tatsächlich sein kann oder nicht, abhängig davon, ob Sie ein subjektivistischer Bayes'scher sind). Eine 75% ige Chance auf einen Clinton-Sieg bedeutet, dass 75% glaubwürdig sind, dass sie gewinnen wird. Die Glaubwürdigkeit kann wiederum frei gewählt werden (basierend auf den vorher bestehenden Überzeugungen eines Modells oder eines Analytikers) im Rahmen der Grundwahrscheinlichkeitsgesetze (wie Bayes 'Theorem ) und der Tatsache, dass die Wahrscheinlichkeit eines gemeinsamen Ereignisses die Grenzwahrscheinlichkeit von keinem von beiden überschreiten kann die Komponentenereignisse). Eine Möglichkeit, diese Gesetze zusammenzufassen, besteht darin, dass kein Spieler ein niederländisches Buch erstellen kann, wenn Sie Wetten auf den Ausgang eines Ereignisses abschließen und den Spielern entsprechend Ihrer Glaubwürdigkeit Quoten anbietenDies ist eine Reihe von Wetten, die garantieren, dass Sie Geld verlieren, unabhängig davon, wie die Veranstaltung tatsächlich abläuft.
Unabhängig davon, ob Sie eine häufige oder eine bayesianische Sicht auf die Wahrscheinlichkeit haben, müssen noch viele Entscheidungen getroffen werden, wie die Daten analysiert und die Wahrscheinlichkeit geschätzt werden sollen. Möglicherweise basiert die beliebteste Methode auf parametrischen Regressionsmodellen wie der linearen Regression. In dieser Einstellung wählt der Analyst eine parametrische Verteilungsfamilie (dh Wahrscheinlichkeitsmaße ) aus, die durch einen als Parameter bezeichneten Zahlenvektor indiziert wird. Jedes Ergebnis ist eine unabhängige Zufallsvariable, die aus dieser Verteilung gezogen und gemäß den Kovariaten transformiert wird. Hierbei handelt es sich um bekannte Werte (z. B. die Arbeitslosenquote), anhand derer der Analyst das Ergebnis vorhersagen möchte. Der Analyst wählt Schätzungen der Parameterwerte anhand der Daten und eines Modellanpassungskriteriums wie beispielsweise der kleinsten Quadrate ausoder maximale Wahrscheinlichkeit . Unter Verwendung dieser Schätzungen kann das Modell eine Vorhersage des Ergebnisses (möglicherweise nur ein einzelner Wert, möglicherweise ein Intervall oder eine andere Menge von Werten) für einen bestimmten Wert der Kovariaten erstellen. Insbesondere kann es den Ausgang einer Wahl vorhersagen. Neben parametrischen Modellen gibt es nichtparametrische Modelle (dh Modelle, die durch eine Verteilungsfamilie definiert sind, die mit einem unendlich langen Parametervektor indiziert ist) sowie Methoden zur Bestimmung vorhergesagter Werte, die kein Modell verwenden, mit dem die Daten überhaupt generiert wurden B. Klassifikatoren für die nächsten Nachbarn und zufällige Gesamtstrukturen .
Vorhersagen zu treffen ist eine Sache, aber woher weißt du, ob sie gut sind? Denn ausreichend ungenaue Vorhersagen sind schlimmer als nutzlos. Das Testen von Vorhersagen ist Teil der umfassenderen Praxis der Modellvalidierung, dh der Quantifizierung, wie gut ein bestimmtes Modell für einen bestimmten Zweck ist. Zwei beliebte Methoden zur Validierung von Vorhersagen sind die Kreuzvalidierung und die Aufteilung der Daten in Trainings- und Testuntergruppen, bevor Modelle angepasst werden. In dem Maße, in dem die in den Daten enthaltenen Wahlen für die US-Präsidentschaftswahlen 2016 repräsentativ sind, geben die Schätzungen der Vorhersagegenauigkeit, die wir aus der Validierung von Vorhersagen erhalten, Auskunft darüber, wie genau unsere Vorhersage für die US-Präsidentschaftswahlen 2016 sein wird.