Pearson's Reste


16

Eine Anfängerfrage zum Pearson-Residuum im Rahmen des Chi-Quadrat-Tests für die Anpassungsgüte:

Neben der Teststatistik gibt die chisq.testFunktion von R den Pearson-Residuum an:

(obs - exp) / sqrt(exp)

Ich verstehe, warum ein Blick auf den rohen Unterschied zwischen beobachteten und erwarteten Werten nicht so aussagekräftig ist, da eine kleinere Stichprobe zu einem geringeren Unterschied führt. Ich würde jedoch gerne mehr über die Wirkung des Nenners erfahren: Warum durch die Wurzel des erwarteten Wertes dividieren? Ist das ein "standardisierter" Residuum?


6
Der Nenner wird verwendet, um die Varianz der rohen Residuen zu berücksichtigen, wodurch die Pearson-Residuen ungefähr der Varianz der Einheiten entsprechen (es gibt andere Methoden, um dies zu erreichen). Bitte beachten Sie, dass es eine Komponente stdresfür standardisierte Residuen gibt.
chl

@chl Danke für deine schnelle Antwort. Das Konzept der Varianz verstehe ich in diesem Zusammenhang jedoch nicht. Kennen Sie Ressourcen, in denen ich mehr erfahren könnte? Ich gehe also davon aus, dass ein Pearson-Residuum nicht "standardisiert" ist, da chisq.testauch die stdresKomponente berechnet wird?
Iain Dillingham

3
Der endgültige Verweis auf die Analyse kategorialer Daten ist wahrscheinlich Categorical Data Analysis von Alan Agresti. Wenn niemand eine detailliertere Antwort liefert, werde ich versuchen, meine Kommentare in eine richtige Antwort umzuwandeln.
chl

Danke für den Link, @chl. Ich habe Zugriff auf das Buch und werde versuchen, es selbst herauszufinden.
Iain Dillingham

Antworten:


10

Das statistische Standardmodell, das der Analyse von Kontingenztabellen zugrunde liegt, geht davon aus, dass die Zellenzahlen (vorbehaltlos von der Gesamtzahl) unabhängige Poisson-Zufallsvariablen sind. Wenn Sie also eine n×m Kontingenztabelle haben, nimmt das statistische Modell, das als Grundlage für die Analyse verwendet wird, an, dass jede Zellenzahl eine bedingungslose Verteilung aufweist:

Xich,j ~ Pois(μich,j)

Sobald Sie eine Gesamtzellenzahl für die Kontingenztabelle oder eine Zeilen- oder Spaltenanzahl festlegen, werden die resultierenden bedingten Verteilungen der Zellenzahlen multinomial. In jedem Fall haben wir für eine Poisson-Verteilung E(Xich,j)=V(Xich,j)=μich,j , daher ist die standardisierte Zellenzahl:

STD(Xich,j)Xich,j-E(Xich,j)V(Xich,j)=Xich,j-μich,jμich,j

Was Sie also in der Formel sehen, nach der Sie fragen, ist die standardisierte Zellenzahl unter der Annahme, dass die Zellenzahlen eine (bedingungslose) Poisson-Verteilung haben.

Von hier aus ist es üblich, die Unabhängigkeit der Zeilen- und Spaltenvariablen in den Daten zu testen. In diesem Fall können Sie eine Teststatistik verwenden, die die Quadratsumme der obigen Werte betrachtet (die der Quadratnorm entspricht) des Vektors der standardisierten Werte). Der Chi-Quadrat-Test liefert einen p-Wert für diese Art von Test, basierend auf einer Näherung mit großer Stichprobe an die Nullverteilung der Teststatistik. Es wird normalerweise in Fällen angewendet, in denen keine der Verkaufszahlen zu gering ist.


0

Im Zusammenhang mit der Anpassungsgüte können Sie auf diese http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm verweisen .

Wenn Sie wissen möchten, wie der Nenner dorthin gelangt ist, müssen Sie das Chi-Quadrat hier zunächst als eine normale Annäherung an das Binom betrachten, die dann auf Multinomiale erweitert werden kann.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.