Die kurze Antwort:
Im Grunde ist es mehr davon zu überzeugen , weil 600 von 1000 als sechs von 10 zu haben, bei gleichen Einstellungen ist es weit eher für 6 von 10 durch Zufall auftreten.
Nehmen wir an, dass der Anteil, der Orangen und Äpfel bevorzugt, tatsächlich gleich ist (also jeweils 50%). Nennen Sie dies eine Nullhypothese. Bei diesen gleichen Wahrscheinlichkeiten ist die Wahrscheinlichkeit der beiden Ergebnisse:
- Bei einer Stichprobe von 10 Personen besteht eine 38% ige Chance, zufällig eine Stichprobe von 6 oder mehr Personen zu erhalten, die Orangen bevorzugen (was nicht allzu unwahrscheinlich ist).
- Bei einer Stichprobe von 1000 Personen besteht eine geringere Wahrscheinlichkeit als eine Milliarde, dass 600 oder mehr von 1000 Personen Orangen bevorzugen.
(Der Einfachheit halber gehe ich von einer unendlichen Population aus, aus der eine unbegrenzte Anzahl von Proben gezogen werden kann.)
Eine einfache Herleitung
Eine Möglichkeit, dieses Ergebnis abzuleiten, besteht darin, einfach die möglichen Kombinationsmöglichkeiten der Personen in unseren Stichproben aufzulisten:
Für zehn Personen ist es einfach:
Ziehen Sie Stichproben von 10 Personen nach dem Zufallsprinzip aus einer unendlichen Anzahl von Personen mit den gleichen Vorlieben für Äpfel oder Orangen in Betracht. Bei gleichen Vorlieben ist es einfach, alle möglichen Kombinationen von 10 Personen aufzulisten:
Hier ist die vollständige Liste.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r ist die Anzahl der Ergebnisse (Personen, die Orangen bevorzugen), C ist die Anzahl der möglichen Arten, wie viele Personen Orangen bevorzugen, und p ist die resultierende diskrete Wahrscheinlichkeit dafür, dass viele Personen in unserer Stichprobe Orangen bevorzugen.
(p ist nur C geteilt durch die Gesamtzahl der Kombinationen. Beachten Sie, dass es insgesamt 1024 Möglichkeiten gibt, diese beiden Präferenzen anzuordnen (dh 2 hoch 10).
- Zum Beispiel gibt es nur einen Weg (eine Probe) für 10 Personen (r = 10), um Orangen zu bevorzugen. Gleiches gilt für alle Menschen, die Äpfel bevorzugen (r = 0).
- Es gibt 10 verschiedene Kombinationen, von denen neun Orangen bevorzugen. (Eine andere Person bevorzugt Äpfel in jeder Probe).
- Es gibt 45 Proben (Kombinationen), bei denen 2 Personen Äpfel usw. bevorzugen.
(Im Allgemeinen geht es um n Cr- Kombinationen von Ergebnissen r aus einer Stichprobe von n Personen. Es gibt Online-Taschenrechner, mit denen Sie diese Zahlen überprüfen können.)
Diese Liste ermöglicht es uns, die obigen Wahrscheinlichkeiten mit nur einer Division anzugeben. Es besteht eine 21% ige Chance, dass 6 Personen in die Stichprobe aufgenommen werden, die Orangen bevorzugen (210 von 1024 der Kombinationen). Die Wahrscheinlichkeit, sechs oder mehr Personen in unsere Stichprobe aufzunehmen, beträgt 38% (die Summe aller Stichproben mit sechs oder mehr Personen oder 386 von 1024 Kombinationen).
Grafisch sehen die Wahrscheinlichkeiten so aus:
Bei größeren Zahlen nimmt die Anzahl der möglichen Kombinationen schnell zu.
Für eine Stichprobe von nur 20 Personen gibt es 1.048.576 mögliche Stichproben, alle mit gleicher Wahrscheinlichkeit. (Hinweis: Ich habe nur jede zweite Kombination unten gezeigt).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Es gibt immer noch nur eine Probe, bei der alle 20 Menschen Orangen bevorzugen. Kombinationen mit gemischten Ergebnissen sind sehr viel wahrscheinlicher, da die Personen in den Stichproben auf viel mehr Arten kombiniert werden können.
Verzerrte Stichproben sind viel unwahrscheinlicher, nur weil weniger Personenkombinationen zu diesen Stichproben führen können:
Mit nur 20 Personen in jeder Stichprobe sinkt die kumulative Wahrscheinlichkeit, dass 60% oder mehr (12 oder mehr) Personen in unserer Stichprobe Orangen bevorzugen, auf nur 25%.
Es ist zu sehen, dass die Wahrscheinlichkeitsverteilung dünner und größer wird:
Mit 1000 Leuten sind die Zahlen riesig
Wir können die obigen Beispiele auf größere Stichproben ausweiten (aber die Zahlen wachsen zu schnell, als dass es möglich wäre, alle Kombinationen aufzulisten), stattdessen habe ich die Wahrscheinlichkeiten in R berechnet:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
Die kumulative Wahrscheinlichkeit, dass 600 oder mehr von 1000 Menschen Orangen bevorzugen, liegt bei nur 1,364232e-10.
Die Wahrscheinlichkeitsverteilung ist jetzt viel konzentrierter um das Zentrum:
[
(Um beispielsweise die Wahrscheinlichkeit zu berechnen, dass genau 600 von 1000 Personen Orangen in R bevorzugen dbinom(600, 1000, prob=0.5)
, entspricht dies 4,633908e-11, und die Wahrscheinlichkeit von 600 oder mehr Personen 1-pbinom(599, 1000, prob=0.5)
entspricht 1,364232e-10 (weniger als 1 in einer Milliarde).