Das Faszinierende an diesem Ergebnis ist, wie sehr es nach der Verteilung eines Korrelationskoeffizienten aussieht. Es gibt einen Grund.
Angenommen, ist bivariate Normale mit Nullkorrelation und gemeinsamer Varianz σ 2 für beide Variablen. Zeichnen Sie eine iid-Probe ( x 1 , y 1 ) , … , ( x n , y n ) . Es ist allgemein bekannt und geometrisch leicht zu bestimmen (wie Fisher es vor einem Jahrhundert getan hat), dass die Verteilung des Probenkorrelationskoeffizienten(X,Y)σ2(x1,y1),…,(xn,yn)
r = ∑ni = 1( xich- x¯) ( yich- y¯)( n - 1 ) SxSy
ist
f( r ) = 1B ( 12, n2- 1 )( 1 - r2)n / 2 - 2, - 1 ≤ r ≤ 1.
(Hier sind wie üblich und usual y Abtastmittel und S x und S y sind die Quadratwurzeln der unverzerrten Varianzschätzer.) B ist die Beta-Funktion , für diex¯y¯SxSyB
1B ( 12, n2- 1 )=Γ(n−12)Γ(12)Γ(n2−1)=Γ(n−12)π−−√Γ(n2−1).(1)
Um zu berechnen , können wir seine Invarianz unter Rotationen in R n um die durch ( 1 , 1 , … , 1 ) erzeugte Linie zusammen mit der Invarianz der Verteilung der Stichprobe unter denselben Rotationen ausnutzen und y i / S wählen y ist ein beliebiger Einheitsvektor, dessen Komponenten sich zu Null addieren. Ein solcher Vektor ist proportional zu v = ( n - 1 , - 1 , ... , - 1 ) . Seine Standardabweichung istrRn(1,1,…,1)yi/Syv=(n−1,−1,…,−1)
Sv= 1n - 1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
Folglich muss die gleiche Verteilung haben wier
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
Daher brauchen wir nur zu skalieren , um die Verteilung von Z zu finden :rZ
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
für . Die Formel (1) zeigt, dass dies mit dem der Frage identisch ist.|z|≤n−1n√
Nicht ganz überzeugt? Hier ist das Ergebnis der 100.000-fachen Simulation dieser Situation (mit , wobei die Verteilung gleichmäßig ist).n=4
Das erste Histogramm zeigt die Korrelationskoeffizienten von während das zweite Histogramm die Korrelationskoeffizienten von ( x i , v i ) , i = 1 , … , 4 ) für a darstellt zufällig gewählter Vektor v i , der für alle Iterationen fest bleibt. Sie sind beide einheitlich. Das QQ-Diagramm auf der rechten Seite bestätigt, dass diese Verteilungen im Wesentlichen identisch sind.(xi,yi),i=1,…,4(xi,vi),i=1,…,4) vi
Hier ist der R
Code, der die Handlung erzeugt hat.
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
Referenz
RA Fisher, Häufigkeitsverteilung der Werte des Korrelationskoeffizienten in Stichproben einer unbegrenzt großen Population . Biometrika , 10 , 507. Siehe Abschnitt 3. (Zitiert in Kendalls Advanced Theory of Statistics , 5. Aufl., Abschnitt 16.24.)