Lassen Sie uns den einfachsten Fall behandeln, um zu versuchen, die meiste Intuition zu vermitteln. Sei eine iid-Stichprobe aus einer diskreten Verteilung mit k Ergebnissen. Sei π 1 , … , π k die Wahrscheinlichkeiten für jedes einzelne Ergebnis. Wir sind in der (asymptotischen) Verteilung der Chi-Quadrat - Statistik interessiert
X 2 = k ΣX1,X2,…,Xnkπ1, … , Πk
Hier n π i die erwartete Anzahl von Zählungen der ist i - ten Ergebnisses.
X2= ∑i = 1k( Sich- n πich)2n πich.
n πichich
Eine suggestive Heuristik
Definiere , so dassX2=∑iU 2 i =‖U‖ 2 2 mitU=(U1,…,Uk).Uich= ( Sich- n πich) / n πich---√X2=∑ichU2ich= ∥ U ∥22U =( U1, … , Uk)
Da ist , B i n ( n ,Sich , dann durch denzentralen Grenzwertsatz,
T i = U iB i n (n, πich)
Somit haben wir auchdass, U i d → N ( 0 , 1 - π i ) .
Tich= Uich1 - πich-----√= Sich- n πichn πich( 1 - πich)---------√→dN( 0 , 1 ),
Uich→dN( 0 , 1 - & pgr;ich)
Nun, wenn die waren (asymptotisch) unabhängig (was sie nicht sind), dann könnten wir argumentieren , dass
Σ i T 2 i war asymptotisch χ 2 k verteilt. Beachten Sie jedoch, dass T k eine deterministische Funktion von ( T 1 , … , T k - 1 ) ist und die T i -Variablen daher möglicherweise nicht unabhängig sein können.Tich∑ichT2ichχ2kTk( T1, … , Tk - 1)Tich
Daher müssen wir die Kovarianz zwischen ihnen irgendwie berücksichtigen. Es stellt sich heraus, dass der "richtige" Weg, dies zu tun, darin besteht, stattdessen das verwenden, und die Kovarianz zwischen den Komponenten von U ändert auch die asymptotische Verteilung von dem, was wir für ≤ 2 k gehalten haben, zu dem, was tatsächlich ist. a χ 2 k - 1 .UichUχ2kχ2k - 1
Einige Details dazu folgen.
Eine strengere Behandlung
Es ist nicht schwer zu überprüfen, ob
füri≠j.C o v ( Uich, Uj) = - πichπj----√ich ≠ j
Die Kovarianz von ist also
A = I - √U
wo √
A = I - π--√π--√T,
. Man beachtedass
Asymmetrisch und idempotent, dh
A=A2=AT. Wenn also insbesondere
Z=(Z1,…,Zk)Standardnormalkomponenten hat, dann ist
AZ∼N(π--√= ( π1--√, … , Πk--√)EINA = A2= ATZ =( Z1, … , Zk) . (
Hinweis:Die multivariate Normalverteilung ist in diesem Fall
entartet.)
A Z ∼ N( 0 , A )
Nach dem multivariaten zentralen Grenzwertsatz ist der Vektor U0EIN
UA ZX2= UTUZTEINTA Z = ZTA Z
Aber ist symmetrisch und idempotent, so dass ( a ) es orthogonale Eigenvektoren hat, ( b ) alle seine Eigenwerte 0 oder 1 sind und ( c ) die Multiplizität des Eigenwerts von 1 r a n k ( A ) ist . Dies bedeutet , dass A kann als zerlegt wird A = Q D Q T wobei Q orthogonal und D eine Diagonalmatrix mit r a n k ( A ) , die auf den Diagonalen und die übrigen Diagonaleinträge Null sind.EINr a n k ( A )EINA = Q D QTQ.Dr a n k ( A )
Somit muss χ 2 k - 1 verteilt , da
A Rang hat k - 1 in unserem Fall.ZTA Zχ2k - 1EINk - 1
Andere Verbindungen
Die Chi-Quadrat-Statistik steht auch in engem Zusammenhang mit der Wahrscheinlichkeitsquotientenstatistik. In der Tat handelt es sich um eine Rao-Score-Statistik , die als Taylor-Näherung der Wahrscheinlichkeitsverhältnis-Statistik angesehen werden kann.
Verweise
Dies ist meine eigene Entwicklung, die auf Erfahrung basiert, aber offensichtlich von klassischen Texten beeinflusst wird. Gute Orte, um mehr zu lernen, sind
- GAF Seber und AJ Lee (2003), Linear Regression Analysis , 2. Aufl., Wiley.
- E. Lehmann und J. Romano (2005), Testing Statistical Hypotheses , 3. Aufl., Springer. Insbesondere Abschnitt 14.3 .
- DR Cox und DV Hinkley (1979), Theoretical Statistics , Chapman and Hall.