Der -Anpassungstest verwendet die folgende Statistik : Im Test wird dies gewährt Wenn die Bedingungen erfüllt sind, verwendet man die - -Verteilung , um den p-Wert zu berechnen, der bei der dass wahr ist, in einer repräsentativen Stichprobe der gleichen Größe beobachtet werden würde.
Damit jedoch eine Statistik einer -Verteilung (mit Freiheitsgraden) folgt , muss zutreffen: für unabhängiges, normales ( Wikipedia ). Die Bedingungen für den Test sind wie folgt (ebenfalls aus Wikipedia ):
- Stichprobe repräsentativ für die Bevölkerung
- Große Stichprobengröße
- Die erwartete Zellenzahl ist ausreichend groß
- Unabhängigkeit zwischen jeder Kategorie
Aus den Bedingungen (1,2) ist klar, dass wir die Bedingungen für den Rückschluss von der Stichprobe auf die Population erfüllen. (3) scheint eine erforderliche Annahme zu sein, da der diskrete Zähler , der im Nenner liegt, nicht zu einer nahezu kontinuierlichen Verteilung für jedes und wenn er nicht groß genug ist, gibt es einen Fehler, der mit Yates korrigiert werden kann 'Korrektur - Dies scheint darauf zurückzuführen zu sein, dass eine diskrete Verteilung im Grunde genommen eine "ununterbrochene" ist, so dass die Verschiebung um für jede einzelne dies korrigiert.
Die Notwendigkeit von (4) scheint sich später als nützlich zu erweisen, aber ich kann nicht erkennen, wie.
Zuerst dachte ich, dass erforderlich ist, damit die Statistik mit der Verteilung übereinstimmt. Dies führte mich zu der fragwürdigen Annahme, dass , was in der Tat falsch war. Tatsächlich ergibt sich aus der Verringerung der Dimension für zwei Seiten der Gleichheit von auf dass dies nicht der Fall sein kann. Oi-Ei∼N(0,√nn-1
Dank Whubers Erklärungen hat sich gezeigt, dass nicht gleich jedem Term sein muss, weil (beachten Sie die Verringerung der Anzahl der summierten Variablen) für normale Standard-Zufallsvariablen die funktional unabhängig sind.O i - E i ≤20=≤n-1i=1Z2iZi
Meine Frage ist also, wie kann der Verteilung folgen ? Welche Arten von Kombinationen von jedem der ergeben quadratische Standardnormalen ? Dies erfordert anscheinend die Verwendung des CLT (und das macht Sinn), aber wie? Mit anderen Worten , was ist jedes gleich (oder ungefähr gleich)? ≤ 2 ( O i - E i ) 2 Z 2 i Zi