Es gibt ein mathematisches Theorem, das "Gesetz der großen Zahlen" genannt wird. Stellen Sie sich vor, Sie möchten die Wahrscheinlichkeit bestimmen, dass eine Münze auf den Kopf kommt. Die "Bevölkerung" der Münzwürfe ist unendlich - viel größer als die über 300.000.000 Menschen in den Vereinigten Staaten. Aber nach dem Gesetz der großen Zahlen ist Ihre Schätzung umso genauer, je mehr Münzen geworfen werden.
Die ideale Umfrage: Bei der idealen Umfrage würden die Umfrageteilnehmer nach dem Zufallsprinzip Namen aus der US-Volkszählung auswählen, herausfinden, wo diese Menschen leben, und dann an ihre Tür klopfen. Wenn die Person sagt, dass sie abstimmen will, fragt der Umfrageteilnehmer, für wen sie abstimmen, und zeichnet ihre Antwort auf. Es ist mathematisch garantiert, dass eine solche Abfrage funktioniert, und die Fehlermenge in Ihrer Messung für ein bestimmtes Konfidenzniveau kann leicht berechnet werden .
Das bedeutet der Fehler: Angenommen, Sie haben laut Ihrer Umfrage eine 52-prozentige Chance, dass Candidate Awesome McPerfect mit 3% Fehler und 98% Selbstvertrauen gewinnt. Das bedeutet, dass Sie zu 98% sicher sein können, dass der wahre Anteil der Wähler, die den Kandidaten Awesome McPerfect favorisieren, zwischen 49% und 55% liegt.
Ein Hinweis zu Fehler und Zuverlässigkeit Je zuverlässiger Sie bei einer bestimmten Stichprobengröße sind, desto größer ist der Fehler. Denken Sie darüber nach - Sie sind zu 100% davon überzeugt, dass der wahre Anteil, der Canditate Awesome unterstützt, zwischen 0% und 100% liegt (größtmöglicher Fehler), und Sie sind zu 0% davon überzeugt, dass der wahre Anteil, der Canditate Awesome unterstützt, genau 52.0932840985028390984308% ist. (Null Fehler). Mehr Vertrauen bedeutet mehr Fehler, weniger Vertrauen bedeutet weniger Fehler. Das Verhältnis zwischen Vertrauen und Fehler ist jedoch NICHT linear! (Siehe: https://en.wikipedia.org/wiki/Confidence_interval )
Umfragen in der realen Welt: Weil es teuer ist, mit dem Hubschrauber in alle Teile des Landes zu fliegen, um an die Türen zufälliger Leute zu klopfen (obwohl ich das gerne sehen würde; wenn Sie ein Milliardär sind und Sie das sehen, bitte Betrachten Sie die Finanzierung dieses), sind Umfragen in der realen Welt komplexer. Schauen wir uns eine der gebräuchlichsten Strategien an: Sie rufen zufällige Wähler auf und fragen sie, wen sie wählen würden. Es ist eine gute Strategie, aber es gibt einige bekannte Fehler:
- Leute entscheiden sich oft dafür, nicht ans Telefon zu gehen und auf Meinungsforscher zu antworten (z. B. ich)
- Einige Bevölkerungsgruppen haben mit größerer Wahrscheinlichkeit einen Festnetzanschluss (z. B. ältere Wähler).
- Einige Bevölkerungsgruppen reagieren eher auf Meinungsumfragen (z. B. ältere Wähler).
Da unterschiedliche Bevölkerungsgruppen unterschiedlich abstimmen, müssen die Umfrageteilnehmer ihr Bestes tun, um die Unterschiede in ihren Rohdaten (basierend darauf, wer sich für den Anrufbeantworter entschieden hat) und den Ergebnissen der tatsächlichen Wahlen zu kontrollieren. Wenn zum Beispiel 10% der Personen, die das Telefon abgenommen haben, Hispanoamerikaner waren, aber 30% der Wähler bei der letzten Wahl Hispanoamerikaner, dann werden sie in ihrer Umfrage den Hispanoamerikanern das dreifache Gewicht beimessen. Wenn 50% der Personen, die am Telefon geantwortet haben, älter als 60 Jahre waren, aber nur 30% der Personen, die bei der letzten Wahl gewählt haben, älter als 60 Jahre, werden sie den älteren Wählern, die geantwortet haben, weniger Gewicht beimessen. Es ist nicht perfekt, aber es kann zu einigen beeindruckenden Vorhersagetaten führen (Nate Silver hat die Ergebnisse in jedem der 50 Bundesstaaten bei den Wahlen 2012 mithilfe von Statistiken richtig vorhergesagt).
Ein Wort der Vorsicht für die Weisen: Die Umfrageteilnehmer treffen die besten Vorhersagen, die sie auf der Grundlage der bisherigen Entwicklungen treffen können. Im Allgemeinen funktionieren die Dinge ungefähr so wie in der Vergangenheit, oder zumindest ist die Veränderung langsam genug, dass die jüngste Vergangenheit (auf die sie sich am meisten konzentrieren) der Gegenwart ähnelt. Gelegentlich kommt es jedoch zu schnellen Veränderungen in der Wählerschaft, und die Dinge laufen schief. Vielleicht ist die Wahrscheinlichkeit, dass Trump-Wähler ans Telefon gehen, etwas geringer als die eines durchschnittlichen Wählers, und die Gewichtung nach demografischen Merkmalen trägt nicht dazu bei. Oder vielleicht sind junge Leute (die Hillary mit überwältigender Mehrheit unterstützen) noch mehrEs ist unwahrscheinlich, dass der Anruf entgegengenommen wird, als die Modelle vorhersagen, und diejenigen, die den Anruf entgegennehmen, sind mit größerer Wahrscheinlichkeit Republikaner. Oder vielleicht ist das Gegenteil von beidem der Fall - wir wissen es nicht. Solche Dinge sind versteckte Variablen, die in häufig gesammelten demografischen Daten nicht angezeigt werden.
Wir würden wissen, ob wir Meinungsforscher schicken, die an zufällige Türen klopfen sollen (ähm, imaginäre Milliarden lesen das), dann müssten wir die Dinge nicht nach demografischen Gesichtspunkten gewichten, aber bis dahin drücken wir die Daumen.