Dies ist eine gute, aber große Frage. Ich glaube nicht, dass ich eine vollständige Antwort geben kann, aber ich werde einige Denkanstöße geben.
Erstens ist die Korrektur, auf die Sie sich beziehen, unter Ihrem oberen Aufzählungspunkt als Yates-Korrektur für die Kontinuität bekannt . Das Problem ist, dass wir eine diskrete Inferenzstatistik berechnen :
(Dies ist diskret, da in einer Kontingenztabelle nur eine begrenzte Anzahl von Instanzen dargestellt ist und es eine begrenzte Anzahl von möglichen realisierten Werten gibt, die diese Statistik annehmen kann.) Ungeachtet dieser Tatsache wird sie mit einerkontinuierlichenReferenzverteilungverglichen.(nämlichdieχ2-Verteilungmit Freiheitsgraden(r-1)(c-1)). Dies führt zwangsläufig zu einer gewissen Inkongruenz. Bei einem besonders kleinen Datensatz und wenn einige Zellen einen Erwartungswert von weniger als 5 haben, ist es möglich, dass der p-Wert zu klein ist. Die Yates-Korrektur korrigiert dies.
χ2= ∑ ( O - E)2E
χ2 ( r - 1 ) ( c - 1 )
Ironischerweise kann dasselbe zugrunde liegende Problem (diskret-kontinuierliche Fehlanpassung) zu zu hohen p-Werten führen . Insbesondere wird der p-Wert herkömmlicherweise als die Wahrscheinlichkeit definiert, Daten zu erhalten, die mindestens so extrem sindals die beobachteten Daten. Es versteht sich, dass bei kontinuierlichen Daten die Wahrscheinlichkeit, einen genauen Wert zu erhalten, verschwindend gering ist, und daher besteht tatsächlich die Wahrscheinlichkeit, dass die Daten extremer sind. Bei diskreten Daten besteht jedoch eine begrenzte Wahrscheinlichkeit, dass Daten wie die Ihren abgerufen werden. Wenn Sie nur die Wahrscheinlichkeit berechnen, dass Daten extremer als Ihre sind, erhalten Sie zu niedrige nominale p-Werte (was zu erhöhten Fehlern vom Typ I führt). Wenn Sie jedoch die Wahrscheinlichkeit einbeziehen, dass Daten genauso wie Ihre erhalten, erhalten Sie zu hohe nominale p-Werte (was zu erhöhten Fehlern vom Typ II führen würde). Diese Tatsachen veranlassen die Idee des mittleren p-Wertes Hälfte. Bei diesem Ansatz ist der p-Wert die Wahrscheinlichkeit von Daten, die extremer als Ihre sind, sowie die Wahrscheinlichkeit von Daten, die genauso hoch sind wie Ihre.
Sie weisen darauf hin, dass es viele Möglichkeiten gibt, Kontingenztabellendaten zu testen. Die umfassendste Behandlung der Vor- und Nachteile der verschiedenen Ansätze ist hier . Dieses Dokument ist spezifisch für 2x2-Tabellen, aber Sie können noch viel über die Optionen für Kontingenztabellendaten lernen, indem Sie es lesen.
Ich denke auch, dass es sich lohnt, Modelle ernsthaft in Betracht zu ziehen. Ältere Tests wie Chi-Quadrat sind schnell, einfach und werden von vielen Menschen verstanden. Sie verfügen jedoch nicht über ein so umfassendes Verständnis Ihrer Daten, wie Sie es durch die Erstellung eines geeigneten Modells erhalten. Wenn es sinnvoll ist, die Zeilen [Spalten] Ihrer Kontingenztabelle als Antwortvariable und die Spalten [Zeilen] als Erklärungs- / Prädiktorvariablen zu betrachten, folgt ein Modellierungsansatz ohne weiteres. Wenn Sie beispielsweise nur zwei Zeilen hatten, können Sie ein logistisches Regressionsmodell erstellen . Wenn mehrere Spalten vorhanden sind, können Sie mithilfe der Referenzzellencodierung (Dummy-Codierung) ein Modell vom Typ ANOVA erstellen. Wenn Sie jedoch mehr als zwei Zeilen haben, erfolgt eine multinomiale logistische Regressionkann auf die gleiche Weise verwendet werden. Wenn Ihre Zeilen eine intrinsische Reihenfolge aufweisen, bietet die ordinale logistische Regression eine bessere Leistung als die multinomiale. Das log-lineare Modell (Poisson-Regression) ist wahrscheinlich weniger relevant, es sei denn, Sie haben meiner Meinung nach Kontingenztabellen mit mehr als zwei Dimensionen.
Für eine umfassende Behandlung dieser Themen sind die Bücher von Agresti die besten Quellen: entweder seine umfassende Behandlung (strenger), sein Intro-Buch (einfacher, aber dennoch umfassend und sehr gut) oder möglicherweise auch sein Ordinalbuch .
G2-Prüfung
G2= ∑ O ⋅ ln ( OE)