Kontingenztabellen: Welche Tests sind wann durchzuführen?

Ich würde gerne eine Erweiterung dieser Diskussion über die exakte Testdebatte zwischen dem alten Chi-Quadrat und Fisher sehen, um den Anwendungsbereich ein wenig zu erweitern. Es gibt viele Tests für Interaktionen in einer Kontingenztabelle, die ausreichen, um meinen Kopf zum Drehen zu bringen. Ich hoffe, eine Erklärung zu bekommen, welchen Test ich wann verwenden sollte und natürlich eine Erklärung, warum ein Test einem anderen vorgezogen werden sollte.

Mein aktuelles Problem ist der klassische Fall , aber Antworten auf Fragen höherer Dimensionalität sind willkommen, ebenso wie Tipps zur Implementierung der verschiedenen Lösungen in R, zumindest in Fällen, in denen es nicht offensichtlich ist, wie vorzugehen ist. $n \times m$

Nachfolgend habe ich alle mir bekannten Tests aufgelistet. Ich hoffe, dass meine Fehler durch das Aufdecken korrigiert werden können.

$\chi^2$ . Der alte Standby. Hier gibt es drei Hauptoptionen:
- Die in R integrierte Korrektur für 2x2-Tabellen: "Eine Hälfte wird von allen abgezogen ." Sollte ich das immer tun? $|O-E|$
- " " Test, nicht sicher, wie das in R gemacht wird. $N-1$ $\chi^2$
- Monte-Carlo-Simulation. Ist das immer am besten? Warum gibt mir R df nicht, wenn ich das tue?
Fisher's genauer Test .
- Traditionell empfohlen, wenn erwartet wird, dass eine Zelle <4 ist, aber anscheinend bestreiten einige diesen Rat.
- Ist die (in der Regel falsche) Annahme, dass die Ränder behoben sind, wirklich das größte Problem bei diesem Test?
Barnards genauer Test
- Noch ein genauer Test, außer ich habe noch nie davon gehört.
Poisson-Regression
- Eine Sache, die mich bei glms immer verwirrt, ist genau, wie man diese Signifikanztests durchführt. Ist es am besten, einen Vergleich mit verschachtelten Modellen durchzuführen? Was ist mit einem Wald-Test für einen bestimmten Prädiktor?
- Sollte ich wirklich immer eine Poisson-Regression durchführen? Was ist der praktische Unterschied zwischen diesem und einem Test? $\chi^2$

r chi-squared contingency-tables

— JVMcDonnell
quelle

Antworten:

Dies ist eine gute, aber große Frage. Ich glaube nicht, dass ich eine vollständige Antwort geben kann, aber ich werde einige Denkanstöße geben.

Erstens ist die Korrektur, auf die Sie sich beziehen, unter Ihrem oberen Aufzählungspunkt als Yates-Korrektur für die Kontinuität bekannt . Das Problem ist, dass wir eine diskrete Inferenzstatistik berechnen :
(Dies ist diskret, da in einer Kontingenztabelle nur eine begrenzte Anzahl von Instanzen dargestellt ist und es eine begrenzte Anzahl von möglichen realisierten Werten gibt, die diese Statistik annehmen kann.) Ungeachtet dieser Tatsache wird sie mit einerkontinuierlichenReferenzverteilungverglichen.(nämlichdie-Verteilungmit Freiheitsgraden). Dies führt zwangsläufig zu einer gewissen Inkongruenz. Bei einem besonders kleinen Datensatz und wenn einige Zellen einen Erwartungswert von weniger als 5 haben, ist es möglich, dass der p-Wert zu klein ist. Die Yates-Korrektur korrigiert dies.

χ^{2} = \sum \frac{(Ö - E)^{2}}{E}

$\chi^2=\sum\frac{(O-E)^2}{E}$

χ^{2}

$\chi^2$

(r - 1) (c - 1)

$(r-1)(c-1)$

Ironischerweise kann dasselbe zugrunde liegende Problem (diskret-kontinuierliche Fehlanpassung) zu zu hohen p-Werten führen . Insbesondere wird der p-Wert herkömmlicherweise als die Wahrscheinlichkeit definiert, Daten zu erhalten, die mindestens so extrem sindals die beobachteten Daten. Es versteht sich, dass bei kontinuierlichen Daten die Wahrscheinlichkeit, einen genauen Wert zu erhalten, verschwindend gering ist, und daher besteht tatsächlich die Wahrscheinlichkeit, dass die Daten extremer sind. Bei diskreten Daten besteht jedoch eine begrenzte Wahrscheinlichkeit, dass Daten wie die Ihren abgerufen werden. Wenn Sie nur die Wahrscheinlichkeit berechnen, dass Daten extremer als Ihre sind, erhalten Sie zu niedrige nominale p-Werte (was zu erhöhten Fehlern vom Typ I führt). Wenn Sie jedoch die Wahrscheinlichkeit einbeziehen, dass Daten genauso wie Ihre erhalten, erhalten Sie zu hohe nominale p-Werte (was zu erhöhten Fehlern vom Typ II führen würde). Diese Tatsachen veranlassen die Idee des mittleren p-Wertes Hälfte. Bei diesem Ansatz ist der p-Wert die Wahrscheinlichkeit von Daten, die extremer als Ihre sind, sowie die Wahrscheinlichkeit von Daten, die genauso hoch sind wie Ihre.

Sie weisen darauf hin, dass es viele Möglichkeiten gibt, Kontingenztabellendaten zu testen. Die umfassendste Behandlung der Vor- und Nachteile der verschiedenen Ansätze ist hier . Dieses Dokument ist spezifisch für 2x2-Tabellen, aber Sie können noch viel über die Optionen für Kontingenztabellendaten lernen, indem Sie es lesen.

Ich denke auch, dass es sich lohnt, Modelle ernsthaft in Betracht zu ziehen. Ältere Tests wie Chi-Quadrat sind schnell, einfach und werden von vielen Menschen verstanden. Sie verfügen jedoch nicht über ein so umfassendes Verständnis Ihrer Daten, wie Sie es durch die Erstellung eines geeigneten Modells erhalten. Wenn es sinnvoll ist, die Zeilen [Spalten] Ihrer Kontingenztabelle als Antwortvariable und die Spalten [Zeilen] als Erklärungs- / Prädiktorvariablen zu betrachten, folgt ein Modellierungsansatz ohne weiteres. Wenn Sie beispielsweise nur zwei Zeilen hatten, können Sie ein logistisches Regressionsmodell erstellen . Wenn mehrere Spalten vorhanden sind, können Sie mithilfe der Referenzzellencodierung (Dummy-Codierung) ein Modell vom Typ ANOVA erstellen. Wenn Sie jedoch mehr als zwei Zeilen haben, erfolgt eine multinomiale logistische Regressionkann auf die gleiche Weise verwendet werden. Wenn Ihre Zeilen eine intrinsische Reihenfolge aufweisen, bietet die ordinale logistische Regression eine bessere Leistung als die multinomiale. Das log-lineare Modell (Poisson-Regression) ist wahrscheinlich weniger relevant, es sei denn, Sie haben meiner Meinung nach Kontingenztabellen mit mehr als zwei Dimensionen.

Für eine umfassende Behandlung dieser Themen sind die Bücher von Agresti die besten Quellen: entweder seine umfassende Behandlung (strenger), sein Intro-Buch (einfacher, aber dennoch umfassend und sehr gut) oder möglicherweise auch sein Ordinalbuch .

$G^2\text{-test}$

G^{2} = \sum Ö \cdot ln (\frac{Ö}{E})

$G^2=\sum O\cdot\text{ln}\left(\frac{O}{E}\right)$

— gung - Wiedereinsetzung von Monica
quelle

Das war eine großartige Erklärung für das zugrunde liegende Problem, danke! Außerdem wurde mir in der Vergangenheit gesagt, dass Agrestis Text eine großartige Ressource ist, also werde ich es mir ansehen.

— JVMcDonnell

Ich werde versuchen, einige Ihrer Fragen aus meiner Sicht so gut wie möglich zu beantworten. Erstens ist der Fisher-Irwin-Test nur eine andere Bezeichnung für den genauen Test nach Fisher. Abgesehen von der Tatsache, dass es manchmal rechenintensiv ist, bevorzuge ich im Allgemeinen den Fisher-Test. Wenn bei diesem Test ein Problem auftritt, hängt er von den Grenzwerten ab. Das Schöne am Test ist, dass unter der Nullhypothese die Menge der Kontingenztabellen mit den gleichen Randsummen wie die beobachtete Tabelle eine hypergeometrische Verteilung aufweist. Einige Leute argumentieren, dass sie die Gründe für die Beschränkung der Betrachtung auf Tabellen mit denselben Randsummen nicht sehen.

Der Pearson-Chi-Quadrat-Test wird sehr häufig zum Testen der Zuordnung in Kontingenztabellen verwendet. Wie bei vielen anderen Tests handelt es sich um Näherungswerte, so dass das Signifikanzniveau nicht immer genau ist. Cochran zeigte, dass in kleinen Proben, wenn einige Zellen sehr dünn sind (z. B. mit weniger als 5 Fällen in einigen Zellen), die Approximation schlecht ist.

Es gibt viele andere ungefähre Tests. Wenn ich den Fisher-Test mit SAS anwende, erhalte ich in der Regel die Ergebnisse all dieser Tests und sie liefern normalerweise fast die gleichen Ergebnisse. Aber der Fisher-Test ist immer exakt abhängig von den Grenzwerten.

In Bezug auf die Poisson-Regression ist dies ein Modell, das die kategorialen Variablen mit den Zellsummen in Beziehung setzt. Wie jedes Modell hängt es von einer Reihe von Annahmen ab. Am wichtigsten ist, dass die Zellenzahlen einer Poisson-Verteilung folgen, was bedeutet, dass die mittlere Anzahl der Zählungen gleich der Varianz ist. Dies gilt im Allgemeinen nicht für Zellzahlverteilungen. Im Falle einer Überdispersion (Varianz größer als der Mittelwert) kann ein negatives Binomialmodell geeigneter sein.

— Michael R. Chernick
quelle

"Fisher-Irwin-Test ist nur ein anderer Name für Fischers genauen Test" ... aha, das macht diesen Kommentar für mich weniger verwirrend, danke!

— JVMcDonnell

Ihre Antwort hat meine Verwirrung darüber, wann ich diese Dinge tun soll, nicht wirklich verringert. Ich denke, eines der Dinge, auf die ich gehofft hatte, ist, inwieweit die Probleme mit Chi ^ 2 durch Monte-Carlo-Simulationen oder Korrekturen usw. lösbar sind. oder inwieweit es durch glms abgelöst werden kann. Also lasse ich das offen, um zu sehen, ob ich noch mehr Bissen bekomme. Aber wenn sich nach einer Weile niemand mischt, nehme ich Ihre Antwort an.

— JVMcDonnell

Für Fisher und Chi-Quadrat habe ich dir gesagt, wann du Chi-Quadrat verwenden kannst. Wenn Sie die Idee von Fisher akzeptieren, dass Sie immer die Grenzwerte einhalten sollten, ist der Fisher-Test immer anwendbar. Aber wenn du das nicht akzeptierst, müsstest du einen bedingungslosen Test machen. Was die anderen verfügbaren Testbatterien betrifft, weiß ich nichts über deren Eigenschaften und kann Ihnen daher nicht wirklich raten, wann Sie sie verwenden sollen. Form Erfahrung Ich habe Fälle gesehen, in denen es darauf ankam, weil das Ergebnis in der Regel in enger Übereinstimmung ist.

— Michael R. Chernick

Stimmt es wirklich, dass Fisher dachte, dass "Sie immer an den Randwerten festhalten sollten"? Diese Annahme gilt nur, wenn die Randsummen festgelegt sind. In dem Beispiel, in dem eine Dame Tee probiert, weiß die Dame, dass 5 Milch zuerst und 5 Milch zuletzt sind. In Experimenten ist es jedoch üblicher, dass keine Kraft vorhanden ist, die die Grenzwerte erzwingt. Stellen Sie sich vor, Sie werfen jeweils zehnmal zwei Münzen um. Wenn 5 Köpfe um die Münze rollen, gibt es keine Schwänze, um die Ränder zu erhalten. In solchen Fällen wurde dokumentiert, dass Fisher's sehr konservativ ist. Deshalb interessieren mich die Alternativen.

— JVMcDonnell

Ja. Ich bin mir sicher, dass Fisher daran geglaubt hat, Referenzverteilungen auszuwählen, die Informationen aus den angegebenen Daten verwenden. Er ist der Meinung, dass unabhängig davon, wie die ursprünglichen Summen zu Ihren beobachteten Daten gekommen sind, nur Daten verglichen werden sollten, die unter der Nullhypothese entstanden wären, die den Einschränkungen der Daten folgte, nämlich den angegebenen Grenzsummen. Wie bei anderen Vorstellungen von Fisher war dies umstritten.

— Michael R. Chernick