Berechnung der mathematischen Erwartung des Korrelationskoeffizienten oder


8

Ich poste eine Frage von math.stackexchange.com erneut . Ich denke, die aktuelle Antwort in math.se ist nicht richtig.

Wählen Sie n Zahlen aus einer Menge {1,2,...,U.}} , yich ist die ich te ausgewählte Zahl und xi ist der Rang von yi in den n Zahlen. Die Auswahl ist ersatzlos. n ist immer kleiner als U . Der Rang ist die Reihenfolge der a-Zahl, nachdem die n Zahlen in aufsteigender Reihenfolge sortiert wurden.

Wir können n Datenpunkte (x1,y1),(x2,y2),...,(xn,yn) , Und eine Best-Fit-Linie für diese Datenpunkte kann durch lineare Regression gefunden werden. rxy (Korrelationskoeffizient) ist die Güte der Anpassungslinie, ich möchte E(rxy) oder E ( r 2 x y ) berechnenE(rxy2) (Korrelation der Bestimmung).

Wenn das E[rxy] nicht berechnet werden kann, ist eine Schätzung oder Untergrenze immer noch in Ordnung.

Aktualisiert: Durch Berechnung des Stichproben-Korrelationskoeffizienten unter Verwendung zufällig generierter Daten können wir sehen, dass rxy ziemlich nahe bei 1 liegt, daher möchte ich dies aus theoretischer Sicht beweisen oder theoretisch sagen, dass die mit der obigen Methode erzeugten Daten sehr linear sind .

Aktualisiert: Ist es möglich, die Verteilung des Probenkorrelationskoeffizienten zu erhalten?


Bitte poste einen Link zur math.SE Frage. Normalerweise ist es nicht gut, einen Cross-Post zu erstellen, es sei denn, es ist eine bedeutende Zeit vergangen.
Kardinal

Kann dieselbe Nummer zweimal ausgewählt werden? Ist n kleiner oder größer als U?
Nick Sabbe

1
Hier ist die vorherige Frage zu math.SE: math.stackexchange.com/questions/32569/…
Kardinal

@ Nick Sabbe Die Auswahl ist ersatzlos. n ist immer kleiner als U.
Fan Zhang

1
@Fan Anwendbare Techniken umfassen quadratische Formen in Zufallsvariablen ( stats.stackexchange.com/questions/9220 ), die "Delta-Methode" zum Schätzen von Momenten von Funktionen von Zufallsvariablen; Verteilungen von Auftragsstatistiken für einheitliche Variablen; die Beziehung zwischen Lücken zwischen einheitlichen Variablen und der Exponentialverteilung und möglicherweise sogar Sattelpunktmethoden, normalen Näherungen, zentralem Grenzwertsatz usw.
whuber

Antworten:


1

Ordnen Sie das Problem in Bezug auf neue Variablen neu an, so dass . Dann haben wir ( x i , y i ) = ( x i , z x i ) , wie @whuber in den Kommentaren hervorhob. Somit regressieren Sie effektiv z j auf j und r x y = r x z . Also, wenn wir die Randverteilung für herausfinden können1z1<z2<<znU(xi,yi)=(xi,zxi)zjjrxy=rxz , und zeigen Sie, dass es in j imGrunde genommen linearist, das Problem ist gelöst, und wir werden r x y1 haben .zjjrxy1

Wir brauchen zuerst die gemeinsame Verteilung für . Das ist ganz einfach, nachdem Sie die Lösung gefunden haben, aber ich fand es nicht einfach, bevor ich die Mathematik gemacht habe. Nur eine kurze Lektion in Mathe, die sich auszahlt - also werde ich zuerst die Mathematik und dann die einfache Antwort vorstellen.z1,,zn

Die ursprüngliche gemeinsame Verteilung ist nun . Durch das Ändern von Variablen werden Dinge einfach für diskrete Wahrscheinlichkeiten neu gekennzeichnet, sodass die Wahrscheinlichkeit immer noch konstant ist. Die Beschriftung ist jedoch nicht 1 zu 1, daher können wir nicht einfach p ( z 1 , , z n ) = ( U - n ) schreiben !p(y1,,yn)1. Stattdessen haben wirp(z1,,zn)=(Un)!U!

p(z1,,zn)=1C1z1<z2<<znU

Und wir können durch Normalisierung finden C = U z n = n z n - 1 z n - 1 = n - 1z 3 - 1 z 2 = 2 z 2 - 1 z 1 = 1 ( 1 ) = U z n = n z n - 1 zC= U z n =n z n - 1 z n - 1 =n-1 z 4 - 1 z 3 =2(z3-1)(z

C=zn=nUzn1=n1zn1z2=2z31z1=1z21(1)=zn=nUzn1=n1zn1z2=2z31(z21)
= U z n =n z n - 1 z n - 1 =n-1 z j + 1 - 1 z j =j ( z j - 1
=zn=nUzn1=n1zn1z3=2z41(z31)(z32)2=zn=nUz4=4z51(z41)(z42)(z43)(2)(3)
=zn=nUzn1=n1zn1zj=jzj+11(zj1j1)=(Un)

Was zeigt, dass das Relabeling-Verhältnis gleich - für jedes(z1,,zn)gibt esn! (y1,,yn)Werte. Sinnvoll, da jede Permutation der Etiketten aufyizu derselben Menge von eingestuftenzi-Werten führt. Nunwiederholen wirdie Randverteilungz1oben, wobei jedoch die Summe überz1abfällt und sich für den Rest ein anderer Summierungsbereich ergibt, nämlich die Mindestwerte von(2,(U.- -n)!U.!(U.n)=1n!(z1,,zn)n! (y1,,yn)yichzichz1z1 bis ( z 1 + 1 , , z 1 + n - 1 ) und wir erhalten:(2,,n)(z1+1,,z1+n- -1)

p(z1)=zn=z1+n1Uzn1=z1+n2zn1z2=z1+1z31p(z1,z2,,zn)=(Uz1n1)(Un)

Mit Unterstützung . Diese Form, kombiniert mit ein wenig Intuition, zeigt, dass die marginale Verteilung von z j durch Folgendes begründet werden kann:z1{1,2,,U+1n}zj

  1. Wählen Sie Werte unter z j , was in ( z j - 1) erfolgen kannj1zjWege (wennzjj);(zj1j1)zjj
  2. Wählen des Wertes , der auf eine Weise erfolgen kann; undzj
  3. njzj(U.- -zjn- -j)zjU.+j- -n

p(zj,zk)

p(zj)=(zj1j1)(Uzjnj)(Un)jzjU+jnp(zj,zk)=(zj1j1)(zkzj1kj1)(Uzknk)(Un)jzjzk+jkU+jn

k=j,r=n,N=Ujzj

E(zj)=jU+1n+1

jU+1n+1

AKTUALISIEREN

Ich habe meine Antwort kurz zuvor gestoppt. Habe jetzt hoffentlich eine vollständigere Antwort ausgefüllt

j¯=n+12z¯=1nj=1nzjjzj

E[sxz2]=E[1nj=1n(jj¯)(zjz¯)]2
=1n2[j=1n(jj¯)2E(zj2)+2k=2nj=1k1(jj¯)(kj¯)E(zjzk)]

E(zj2)=V(zj)+E(zj)2=Aj2+BjA=(U+1)(U+2)(n+1)(n+2)B=(U+1)(Un)(n+1)(n+2)

j=1n(jj¯)2E(zj2)=j=1n(j22jj¯+j¯2)(Aj2+Bj)
=n(n1)(U+1)120(U(2n+1)+(3n1))

E(zjzk)=E[zj(zkzj)]+E(zj2)

E[zj(zkzj)]=zk=kU+knzj=jzk+jkzj(zkzj)p(zj,zk)
=j(kj)zk=kU+knzj=jzk+jk(zjj)(zkzjkj)(Uzknk)(Un)=j(kj)zk=kU+kn(zk+1k+1)(U+1(zk+1)nk)(Un)
=j(kj)(U+1n+1)(Un)=j(kj)U+1n+1
E(zjzk)=jkU+1n+1+j2(U+1)(Un)(n+1)(n+2)+j(U+1)(Un)(n+1)(n+2)

Und die zweite Summe ist:

2k=2nj=1k1(jj¯)(kj¯)E(zjzk)
=n(U+1)(n1)720(n+2)(6(Un)(n32n29n2)+(n+2)(5n324n235n+6))

Und so erhalten Sie nach einigen ziemlich langwierigen Manipulationen für den erwarteten Wert der quadratischen Kovarianz von:

E[sxz2]=(n1)(n2)U(U+1)120(U+1)(n1)(n3+2n2+11n+22)720(n+2)

U>>nO(U2n2)Ö(U.n3)E.[sx2sz2]]1E.(zj)j

jsx2=1nj=1n(j- -j¯)2=(n+1)(n- -1)12zj

E.[sz2]]=E.[1nj=1n(zj- -z¯)2]]=1nj=1nE.(zj2)- -[1nj=1nE.(zj)]]2
=A(n+1)(2n+1)6+B(n+1)2(U+1)24
=(U+1)(U1)12

E[sx2sz2]=sx2E[sz2]

E[sx2sz2]=(n+1)(n1)(U+1)(U1)144(n1)(n2)U(U+1)120E[sxz2]

E[rxz2]1


Ich verstehe Ihre Antwort und meine Frage ist, wie Sie die Erwartung eines Korrelationskoeffizienten aus Ihrem aktuellen Zustand erhalten können.
Fan Zhang

E.[sx2sz2]]E.[sxz2]]E.[rxz2]]1

Ich denke, der letzte Schritt ist falsch. E [X / Y] ist nicht gleich E [X] / E [Y].
Fan Zhang

G(X.,Y.)=X.Y.(E.[X.]],E.[Y.]])X.Y.E.[X.]]E.[Y.]]+(X.- -E.[X.]])1E.[Y.]]- -(Y.- -E.[Y.]])E.[X.]]E.[Y.]]2E.(X.- -E.[X.]])=0E.(X.Y.)E.[X.]]E.[Y.]]

Vielen Dank. Und wie heißt diese Art der Annäherung?
Fan Zhang

3

rxy2UnU=20,n=9

Extreme Korrelationsdiagramme für U = 20, n = 9

Unrxy2n=100Unrxy20.03


E.(rxy2)rxy2rxy20,99

Ich hoffe, dass 0,99 eine vernünftige Verpflichtung sein sollte. Wenn wir beispielsweise einige Beispiele in R berechnen, können wir konsistent cor (x, y) erhalten, die sehr nahe an 1 liegen. ZB 0,9994561 ist ein typisches Ergebnis, das zurückgegeben wird von: m <- 10 ^ 5; n <-10 ^ 3; list <- sample (1: m, size = n, replace = FALSE); list <- sort (list); cor (Liste, 1: n);
Douglas S. Stones

rxy2

yichr21U.D.1r2r21D0

@whuber Haben Sie eine detailliertere Beschreibung der Kolmogorov-Smirnov-Statistik D?
Fan Zhang
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.