Ich schaue auf ein Excel-Blatt, das behauptet, das zu berechnen , aber ich erkenne diese Vorgehensweise nicht und habe mich gefragt, ob mir etwas fehlt.
Hier sind die Daten, die analysiert werden:
+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
| 2000 | 42 | 32.5 |
| 2000 | 42 | 32.5 |
| 2000 | 25 | 32.5 |
| 2000 | 21 | 32.5 |
+------------------+----------+----------+
Und hier sind die Summen, die es für jede Gruppe macht, um das Chi-Quadrat zu berechnen:
P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B
Für jede Gruppe lautet das also:
2.822793
2.822793
1.759359
4.136448
Und das gesamte Chi-Quadrat ist : 11.54139
.
Jedes Beispiel, das ich zur Berechnung von ist jedoch völlig anders. Ich würde für jede Gruppe tun:
chiSq = (Observed-Expected)^2 / Expected
Und deshalb würde ich für das obige Beispiel einen Chi-Quadrat-Gesamtwert von erhalten 11.3538
.
Meine Frage ist - warum berechnen sie in der Excel-Tabelle auf diese Weise? Ist das ein anerkannter Ansatz?
AKTUALISIEREN
Mein Grund, dies wissen zu wollen, ist, dass ich versuche, diese Ergebnisse in der R-Sprache zu replizieren. Ich verwende die Funktion chisq.test und sie wird nicht mit derselben Nummer wie die Excel-Tabelle ausgegeben. Wenn also jemand weiß, wie man diesen Ansatz in R macht, wäre er sehr hilfreich!
UPDATE 2
Wenn jemand interessiert ist, habe ich es wie folgt in R berechnet:
res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
x=c(42,42,25,21);chisq.test(cbind(x,2000-x))