Ich habe drei Gruppen von Daten, jede mit einer Binomialverteilung (dh jede Gruppe hat Elemente, die entweder Erfolg oder Misserfolg haben). Ich habe keine vorhergesagte Erfolgswahrscheinlichkeit, sondern kann mich nur auf die Erfolgsrate jedes Einzelnen als Annäherung an die wahre Erfolgsrate stützen. Ich habe nur diese Frage gefunden , die nahe liegt, sich aber nicht genau mit diesem Szenario zu befassen scheint.
Um den Test zu vereinfachen, sagen wir einfach, dass ich 2 Gruppen habe (3 können von diesem Basisfall aus erweitert werden).
- Versuche der Gruppe 1: = 2455
- Versuche der Gruppe 2: = 2730
- Erfolg Gruppe 1: = 1556
- Erfolg Gruppe 2: = 1671
Ich habe keine erwartete Erfolgswahrscheinlichkeit, nur das, was ich aus den Proben weiß. Meine implizite Erfolgsquote für die beiden Gruppen ist also:
- Erfolgsquote Gruppe 1: = 1556/2455 = 63,4%
- Erfolgsquote Gruppe 2: = 1671/2730 = 61,2%
Die Erfolgsrate jeder Stichprobe liegt ziemlich nahe. Meine Stichproben sind jedoch auch ziemlich groß. Wenn ich die CDF der Binomialverteilung überprüfe, um festzustellen, wie unterschiedlich sie von der ersten ist (wobei ich davon ausgehe, dass die erste der Nulltest ist), erhalte ich eine sehr geringe Wahrscheinlichkeit, dass die zweite erreicht werden kann.
In Excel:
1-BINOM.DIST (1556,2455,61,2%, WAHR) = 0,012
Hierbei wird jedoch keine Varianz des ersten Ergebnisses berücksichtigt, sondern nur davon ausgegangen, dass das erste Ergebnis die Testwahrscheinlichkeit ist.
Gibt es eine bessere Möglichkeit zu testen, ob sich diese beiden Datenmuster statistisch voneinander unterscheiden?
prop.test
: prop.test(c(1556, 1671), c(2455, 2730))
.