Berechnung der mathematischen Erwartung des Korrelationskoeffizienten oder

Ich poste eine Frage von math.stackexchange.com erneut . Ich denke, die aktuelle Antwort in math.se ist nicht richtig.

Wählen Sie $n$ Zahlen aus einer Menge $\{1,2,...,U\}$ , $y_i$ ist die $i$ te ausgewählte Zahl und $x_i$ ist der Rang von $y_i$ in den $n$ Zahlen. Die Auswahl ist ersatzlos. $n$ ist immer kleiner als $U$ . Der Rang ist die Reihenfolge der a-Zahl, nachdem die $n$ Zahlen in aufsteigender Reihenfolge sortiert wurden.

Wir können $n$ Datenpunkte $(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$ , Und eine Best-Fit-Linie für diese Datenpunkte kann durch lineare Regression gefunden werden. $r_{xy}$ (Korrelationskoeffizient) ist die Güte der Anpassungslinie, ich möchte $\mathbb{E}(r_{xy})$ oder berechnen $\mathbb{E}(r_{xy}^2)$ (Korrelation der Bestimmung).

Wenn das $\mathbb{E}[r_{xy}]$ nicht berechnet werden kann, ist eine Schätzung oder Untergrenze immer noch in Ordnung.

Aktualisiert: Durch Berechnung des Stichproben-Korrelationskoeffizienten unter Verwendung zufällig generierter Daten können wir sehen, dass $r_{xy}$ ziemlich nahe bei 1 liegt, daher möchte ich dies aus theoretischer Sicht beweisen oder theoretisch sagen, dass die mit der obigen Methode erzeugten Daten sehr linear sind .

Aktualisiert: Ist es möglich, die Verteilung des Probenkorrelationskoeffizienten zu erhalten?

regression correlation

— Fan Zhang
quelle

Bitte poste einen Link zur math.SE Frage. Normalerweise ist es nicht gut, einen Cross-Post zu erstellen, es sei denn, es ist eine bedeutende Zeit vergangen.

— Kardinal

Kann dieselbe Nummer zweimal ausgewählt werden? Ist n kleiner oder größer als U?

— Nick Sabbe

Hier ist die vorherige Frage zu math.SE: math.stackexchange.com/questions/32569/…

— Kardinal

@ Nick Sabbe Die Auswahl ist ersatzlos. n ist immer kleiner als U.

— Fan Zhang

@Fan Anwendbare Techniken umfassen quadratische Formen in Zufallsvariablen ( stats.stackexchange.com/questions/9220 ), die "Delta-Methode" zum Schätzen von Momenten von Funktionen von Zufallsvariablen; Verteilungen von Auftragsstatistiken für einheitliche Variablen; die Beziehung zwischen Lücken zwischen einheitlichen Variablen und der Exponentialverteilung und möglicherweise sogar Sattelpunktmethoden, normalen Näherungen, zentralem Grenzwertsatz usw.

— whuber

Ordnen Sie das Problem in Bezug auf neue Variablen neu an, so dass . Dann haben wir , wie @whuber in den Kommentaren hervorhob. Somit regressieren Sie effektiv auf und . Also, wenn wir die Randverteilung für herausfinden können $1\leq z_1<z_2<\dots<z_n\leq U$ $(x_i,y_i)=(x_i,z_{x_i})$ $z_j$ $j$ $r_{xy}=r_{xz}$ , und zeigen Sie, dass es in imGrunde genommen linearist, das Problem ist gelöst, und wir werden . $z_j$ $j$ $r_{xy}\sim 1$

Wir brauchen zuerst die gemeinsame Verteilung für . Das ist ganz einfach, nachdem Sie die Lösung gefunden haben, aber ich fand es nicht einfach, bevor ich die Mathematik gemacht habe. Nur eine kurze Lektion in Mathe, die sich auszahlt - also werde ich zuerst die Mathematik und dann die einfache Antwort vorstellen. $z_1,\dots,z_n$

Die ursprüngliche gemeinsame Verteilung ist nun . Durch das Ändern von Variablen werden Dinge einfach für diskrete Wahrscheinlichkeiten neu gekennzeichnet, sodass die Wahrscheinlichkeit immer noch konstant ist. Die Beschriftung ist jedoch nicht 1 zu 1, daher können wir nicht einfach schreiben $p(y_1,\dots,y_n)\propto 1$ . Stattdessen haben wir $p(z_1,\dots,z_n)=\frac{(U-n)!}{U!}$

\begin{matrix} p (z_{1}, \dots, z_{n}) = \frac{1}{C} & 1 \leq z_{1} < z_{2} < \dots < z_{n} \leq U \end{matrix}

$\begin{array}\\p(z_1,\dots,z_n)=\frac{1}{C} & 1\leq z_1<z_2<\dots<z_n\leq U\end{array}$

Und wir können durch Normalisierung finden $C$

C = \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{2} = 2}^{z_{3} - 1} \sum_{z_{1} = 1}^{z_{2} - 1} (1) = \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{2} = 2}^{z_{3} - 1} (z_{2} - 1)

$C=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_2=2}^{z_3-1}\sum_{z_1=1}^{z_2-1}(1)=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_2=2}^{z_3-1}(z_2-1)$

= \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{3} = 2}^{z_{4} - 1} \frac{(z_{3} - 1) (z_{3} - 2)}{2} = \sum_{z_{n} = n}^{U} \dots \sum_{z_{4} = 4}^{z_{5} - 1} \frac{(z_{4} - 1) (z_{4} - 2) (z_{4} - 3)}{(2) (3)}

$=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_3=2}^{z_4-1}\frac{(z_3-1)(z_3-2)}{2}=\sum_{z_n=n}^{U}\dots\sum_{z_4=4}^{z_5-1}\frac{(z_4-1)(z_4-2)(z_4-3)}{(2)(3)}$

= \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{j} = j}^{z_{j + 1} - 1} (\binom{z_{j} - 1}{j - 1}) = (\binom{U}{n})

$=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_{j}=j}^{z_{j+1}-1}{z_j-1 \choose j-1}={U \choose n}$

Was zeigt, dass das Relabeling-Verhältnis gleich - für jedesgibt esWerte. Sinnvoll, da jede Permutation der Etiketten aufzu derselben Menge von eingestuften-Werten führt. Nunwiederholen wirdie Randverteilungoben, wobei jedoch die Summe überabfällt und sich für den Rest ein anderer Summierungsbereich ergibt, nämlich die Mindestwerte von $\frac{(U-n)!}{U!}{U \choose n}=\frac{1}{n!}$ $(z_1,\dots,z_n)$ $n!$ $(y_1,\dots,y_n)$ $y_i$ $z_i$ $z_1$ $z_1$ bis und wir erhalten: $(2,\dots,n)$ $(z_1+1,\dots,z_1+n-1)$

p (z_{1}) = \sum_{z_{n} = z_{1} + n - 1}^{U} \sum_{z_{n - 1} = z_{1} + n - 2}^{z_{n} - 1} \dots \sum_{z_{2} = z_{1} + 1}^{z_{3} - 1} p (z_{1}, z_{2}, \dots, z_{n}) = \frac{(\binom{U - z_{1}}{n - 1})}{(\binom{U}{n})}

$p(z_1)=\sum_{z_n=z_1+n-1}^{U}\;\;\sum_{z_{n-1}=z_1+n-2}^{z_n-1}\dots\sum_{z_2=z_1+1}^{z_3-1}p(z_1,z_2,\dots,z_n)=\frac{{U-z_1 \choose n-1}}{{U \choose n}}$

Mit Unterstützung . Diese Form, kombiniert mit ein wenig Intuition, zeigt, dass die marginale Verteilung von durch Folgendes begründet werden kann: $z_1\in\{1,2,\dots,U+1-n\}$ $z_j$

Wählen Sie Werte unter , was in $j-1$ $z_j$ Wege (wenn); ${z_j-1\choose j-1}$ $z_j\geq j$
Wählen des Wertes , der auf eine Weise erfolgen kann; und $z_j$
$n-j$ $z_j$ ${U-z_j\choose n-j}$ $z_j\leq U+j-n$

$p(z_j,z_k)$

\begin{array}{cc} p (z_{j}) = \frac{(\binom{z_{j} - 1}{j - 1}) (\binom{U - z_{j}}{n - j})}{(\binom{U}{n})} & j \leq z_{j} \leq U + j - n \\ p (z_{j}, z_{k}) = \frac{(\binom{z_{j} - 1}{j - 1}) (\binom{z_{k} - z_{j} - 1}{k - j - 1}) (\binom{U - z_{k}}{n - k})}{(\binom{U}{n})} & j \leq z_{j} \leq z_{k} + j - k \leq U + j - n \end{array}

$\begin{array}{c c}\\p(z_j)=\frac{{z_j-1\choose j-1}{U-z_j\choose n-j}}{{U \choose n}} & j\leq z_j\leq U+j-n \\p(z_j,z_k)=\frac{{z_j-1\choose j-1}{z_k-z_j-1 \choose k-j-1}{U-z_k\choose n-k}}{{U \choose n}} & j\leq z_j\leq z_k+j-k\leq U+j-n \end{array}$

$k=j,r=n,N=U$ $j$ $z_j$

E (z_{j}) = j \frac{U + 1}{n + 1}

$E(z_j)=j\frac{U+1}{n+1}$

$j$ $\frac{U+1}{n+1}$

AKTUALISIEREN

Ich habe meine Antwort kurz zuvor gestoppt. Habe jetzt hoffentlich eine vollständigere Antwort ausgefüllt

$\overline{j}=\frac{n+1}{2}$ $\overline{z}=\frac{1}{n}\sum_{j=1}^{n}z_j$ $j$ $z_j$

E [s_{x z}^{2}] = E {[\frac{1}{n} \sum_{j = 1}^{n} (j - \bar{j}) (z_{j} - \bar{z})]}^{2}

$E[s_{xz}^2]=E\left[\frac{1}{n}\sum_{j=1}^{n}(j-\overline{j})(z_j-\overline{z})\right]^2$

= \frac{1}{n^{2}} [\sum_{j = 1}^{n} (j - \bar{j})^{2} E (z_{j}^{2}) + 2 \sum_{k = 2}^{n} \sum_{j = 1}^{k - 1} (j - \bar{j}) (k - \bar{j}) E (z_{j} z_{k})]

$=\frac{1}{n^2}\left[\sum_{j=1}^{n}(j-\overline{j})^2E(z_j^2)+2\sum_{k=2}^{n}\sum_{j=1}^{k-1}(j-\overline{j})(k-\overline{j})E(z_jz_k)\right]$

$E(z_j^2)=V(z_j)+E(z_j)^2=Aj^2+Bj$ $A=\frac{(U+1)(U+2)}{(n+1)(n+2)}$ $B=\frac{(U+1)(U-n)}{(n+1)(n+2)}$

\sum_{j = 1}^{n} (j - \bar{j})^{2} E (z_{j}^{2}) = \sum_{j = 1}^{n} (j^{2} - 2 j \bar{j} + {\bar{j}}^{2}) (A j^{2} + B j)

$\sum_{j=1}^{n}(j-\overline{j})^2E(z_j^2)=\sum_{j=1}^{n}(j^2-2j\overline{j}+\overline{j}^2)(Aj^2+Bj)$

= \frac{n (n - 1) (U + 1)}{120} (U (2 n + 1) + (3 n - 1))

$=\frac{n(n-1)(U+1)}{120}\bigg( U(2n+1)+(3n-1)\bigg)$

$E(z_jz_k)=E[z_j(z_k-z_j)]+E(z_j^2)$

E [z_{j} (z_{k} - z_{j})] = \sum_{z_{k} = k}^{U + k - n} \sum_{z_{j} = j}^{z_{k} + j - k} z_{j} (z_{k} - z_{j}) p (z_{j}, z_{k})

$E[z_j(z_k-z_j)]=\sum_{z_k=k}^{U+k-n}\sum_{z_j=j}^{z_k+j-k}z_j(z_k-z_j) p(z_j,z_k)$

= j (k - j) \sum_{z_{k} = k}^{U + k - n} \sum_{z_{j} = j}^{z_{k} + j - k} \frac{(\binom{z_{j}}{j}) (\binom{z_{k} - z_{j}}{k - j}) (\binom{U - z_{k}}{n - k})}{(\binom{U}{n})} = j (k - j) \sum_{z_{k} = k}^{U + k - n} \frac{(\binom{z_{k} + 1}{k + 1}) (\binom{U + 1 - (z_{k} + 1)}{n - k})}{(\binom{U}{n})}

$=j(k-j)\sum_{z_k=k}^{U+k-n}\sum_{z_j=j}^{z_k+j-k}\frac{{z_j\choose j}{z_k-z_j \choose k-j}{U-z_k\choose n-k}}{{U \choose n}}=j(k-j)\sum_{z_k=k}^{U+k-n}\frac{{z_k+1 \choose k+1}{U+1-(z_k+1)\choose n-k}}{{U \choose n}}$

= j (k - j) \frac{(\binom{U + 1}{n + 1})}{(\binom{U}{n})} = j (k - j) \frac{U + 1}{n + 1}

$=j(k-j)\frac{{U+1\choose n+1}}{{U \choose n}}=j(k-j)\frac{U+1}{n+1}$

⟹ E (z_{j} z_{k}) = j k \frac{U + 1}{n + 1} + j^{2} \frac{(U + 1) (U - n)}{(n + 1) (n + 2)} + j \frac{(U + 1) (U - n)}{(n + 1) (n + 2)}

$\implies E(z_jz_k)=jk\frac{U+1}{n+1}+j^2\frac{(U+1)(U-n)}{(n+1)(n+2)}+j\frac{(U+1)(U-n)}{(n+1)(n+2)}$

Und die zweite Summe ist:

2 \sum_{k = 2}^{n} \sum_{j = 1}^{k - 1} (j - \bar{j}) (k - \bar{j}) E (z_{j} z_{k})

$2\sum_{k=2}^{n}\sum_{j=1}^{k-1}(j-\overline{j})(k-\overline{j})E(z_jz_k)$

= \frac{n (U + 1) (n - 1)}{720 (n + 2)} (6 (U - n) (n^{3} - 2 n^{2} - 9 n - 2) + (n + 2) (5 n^{3} - 24 n^{2} - 35 n + 6))

$=\frac{n(U+1)(n-1)}{720(n+2)}\bigg(6(U-n)(n^3-2n^2-9n-2) + (n+2)(5 n^3- 24 n^2- 35 n +6)\bigg)$

Und so erhalten Sie nach einigen ziemlich langwierigen Manipulationen für den erwarteten Wert der quadratischen Kovarianz von:

E [s_{x z}^{2}] = \frac{(n - 1) (n - 2) U (U + 1)}{120} - \frac{(U + 1) (n - 1) (n^{3} + 2 n^{2} + 11 n + 22)}{720 (n + 2)}

$E[s_{xz}^2]=\frac{(n-1)(n-2)U(U+1)}{120}-\frac{(U+1)(n-1)(n^3+2n^2+11n+22)}{720(n+2)}$

$U>>n$ $O(U^2n^2)$ $O(Un^3)$ $E[s_{x}^2s_{z}^2]$ $1$ $E(z_j)\propto j$

$j$ $s_x^2=\frac{1}{n}\sum_{j=1}^{n}(j-\overline{j})^2=\frac{(n+1)(n-1)}{12}$ $z_j$

E. [s_{z}^{2}]] = E. [\frac{1}{n} \sum_{j = 1}^{n} (z_{j} - - \bar{z})^{2}]] = \frac{1}{n} \sum_{j = 1}^{n} E. (z_{j}^{2}) - - {[\frac{1}{n} \sum_{j = 1}^{n} E. (z_{j})]]}^{2}

$E[s_z^2]=E\left[\frac{1}{n}\sum_{j=1}^{n}(z_j-\overline{z})^2\right]=\frac{1}{n}\sum_{j=1}^{n}E(z_j^2)-\left[\frac{1}{n}\sum_{j=1}^{n}E(z_j)\right]^2$

= \frac{A (n + 1) (2 n + 1)}{6} + \frac{B (n + 1)}{2} - \frac{(U + 1)^{2}}{4}

$=\frac{A(n+1)(2n+1)}{6}+\frac{B(n+1)}{2}-\frac{(U+1)^2}{4}$

= \frac{(U + 1) (U - 1)}{12}

$=\frac{(U+1)(U-1)}{12}$

$E[s_x^2s_z^2]=s_x^2E[s_z^2]$

E [s_{x}^{2} s_{z}^{2}] = \frac{(n + 1) (n - 1) (U + 1) (U - 1)}{144} \approx \frac{(n - 1) (n - 2) U (U + 1)}{120} \approx E [s_{x z}^{2}]

$E[s_x^2s_z^2]=\frac{(n+1)(n-1)(U+1)(U-1)}{144}\approx \frac{(n-1)(n-2)U(U+1)}{120}\approx E[s_{xz}^2]$

$E[r_{xz}^2]\approx 1$

— Wahrscheinlichkeitslogik
quelle

Ich verstehe Ihre Antwort und meine Frage ist, wie Sie die Erwartung eines Korrelationskoeffizienten aus Ihrem aktuellen Zustand erhalten können.

— Fan Zhang

E [s_{x}^{2} s_{z}^{2}] \approx E [s_{x z}^{2}]

$E[s_x^2s_z^2] \approx E[s_{xz}^2]$

E [r_{x z}^{2}] \approx 1

$E[r_{xz}^2] \approx 1$

Ich denke, der letzte Schritt ist falsch. E [X / Y] ist nicht gleich E [X] / E [Y].

— Fan Zhang

g (X, Y) = \frac{X}{Y}

$g(X,Y)=\frac{X}{Y}$

(E [X], E [Y])

$(E[X],E[Y])$

\frac{X}{Y} \approx \frac{E [X]}{E [Y]} + (X - E [X]) \frac{1}{E [Y]} - (Y - E [Y]) \frac{E [X]}{E [Y]^{2}}

$\frac{X}{Y}\approx\frac{E[X]}{E[Y]}+(X-E[X])\frac{1}{E[Y]}-(Y-E[Y])\frac{E[X]}{E[Y]^2}$

E (X - E [X]) = 0

$E\left(X-E[X]\right)=0$

E (\frac{X}{Y}) \approx \frac{E [X]}{E [Y]}

$E\left(\frac{X}{Y}\right)\approx\frac{E[X]}{E[Y]}$

Vielen Dank. Und wie heißt diese Art der Annäherung?

— Fan Zhang

$r^2_{xy}$ $U$ $n$ $U=20, n=9$

Extreme Korrelationsdiagramme für U = 20, n = 9

$U$ $n$ $r^2_{xy}$ $n=100$ $U \gg n$ $r^2_{xy} \sim 0.03$

— whuber
quelle

E (r_{x y}^{2})

$E(r_{xy}^2)$

r_{x y}^{2}

$r_{xy}^2$

r_{x y}^{2} \leq 0.99

$r_{xy}^2 \leq 0.99$

Ich hoffe, dass 0,99 eine vernünftige Verpflichtung sein sollte. Wenn wir beispielsweise einige Beispiele in R berechnen, können wir konsistent cor (x, y) erhalten, die sehr nahe an 1 liegen. ZB 0,9994561 ist ein typisches Ergebnis, das zurückgegeben wird von: m <- 10 ^ 5; n <-10 ^ 3; list <- sample (1: m, size = n, replace = FALSE); list <- sort (list); cor (Liste, 1: n);

— Douglas S. Stones

r_{x y}^{2}

$r^2_{xy}$

y_{i}

$y_i$

r^{2} \to 1

$r^2 \to 1$

U \to \infty

$U \to \infty$

D

$D$

1 - r^{2}

$1-r^2$

r^{2} \to 1

$r^2 \to 1$

D \to 0

$D \to 0$

@whuber Haben Sie eine detailliertere Beschreibung der Kolmogorov-Smirnov-Statistik D?

— Fan Zhang