Die Äquivalenz von Stichprobenkorrelation und R-Statistik für eine einfache lineare Regression

10

Es wird oft angegeben, dass das Quadrat der Probenkorrelation dem Bestimmungskoeffizienten für eine einfache lineare Regression entspricht. Ich konnte dies selbst nicht nachweisen und würde mich über einen vollständigen Beweis dieser Tatsache freuen. $r^2$ $R^2$

regression correlation

— edwardsm88
quelle

1

Wenn dies eine Frage zum Selbststudium ist, fügen Sie bitte das entsprechende Tag hinzu.

— Andy

Diese Frage fragt auch, warum .

R^{2} = r^{2}

$R^2=r^2$

— Silverfish

8

Es scheint einige Variationen in der Notation zu geben: In einer einfachen linearen Regression habe ich normalerweise den Ausdruck "Probenkorrelationskoeffizient" mit dem Symbol als Referenz für die Korrelation zwischen beobachteten und Werten gesehen. Dies ist die Notation, die ich für diese Antwort übernommen habe. Ich habe auch den gleichen Ausdruck und das gleiche Symbol gesehen, die verwendet wurden, um auf die Korrelation zwischen beobachtetem und angepasstem zu verweisen ; In meiner Antwort habe ich dies als "Mehrfachkorrelationskoeffizient" bezeichnet und das Symbol . Diese Antwort spricht an, warum der Bestimmungskoeffizient sowohl das Quadrat von als auch das Quadrat von $r$ $x$ $y$ $y$ $\hat y$ $R$ $r$ $R$ Es sollte also keine Rolle spielen, welche Verwendung beabsichtigt war.

Das Ergebnis folgt in einer Zeile der Algebra, sobald einige einfache Fakten über die Korrelation und die Bedeutung von ermittelt wurden. Sie können es daher vorziehen, zur Box-Gleichung zurückzukehren. Ich gehe davon aus, dass wir keine grundlegenden Eigenschaften von Kovarianz und Varianz nachweisen müssen, insbesondere: $r^2$ $R$

Cov (a X + b, Y) = a Cov (X, Y)

$\text{Cov}(aX+b, Y) = a\text{Cov}(X,Y)$

Var (a X + b) = a^{2} Var (X)

$\text{Var}(aX+b) = a^2\text{Var}(X)$

Beachten Sie, dass Letzteres von Ersterem abgeleitet werden kann, sobald wir wissen, dass die Kovarianz symmetrisch ist und dass . Von hier leiten wir eine weitere grundlegende Tatsache über die Korrelation ab. Für und solange und Abweichungen ungleich Null haben, $\text{Var}(X)= \text{Cov}(X,X)$ $a \neq 0$ $X$ $Y$

\begin{aligned} Cor (a X + b, Y) & = \frac{Cov (a X + b, Y)}{\sqrt{Var (a X + b) Var (Y)}} \\ = \frac{a}{\sqrt{a^{2}}} \times \frac{Cov (X, Y)}{\sqrt{Var (X) Var (Y)}} \\ Cor (a X + b, Y) & = sgn (a) Cor (X, Y) \end{aligned}

$\begin{align} \text{Cor}(aX+b, Y) &= \frac{\text{Cov}(aX+b, Y)}{\sqrt{\text{Var}(aX+b) \text{Var} (Y)}} \\ &= \frac{a}{\sqrt{a^2}} \times \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var} (Y)}} \\ \text{Cor}(aX+b, Y) &= \text{sgn}(a) \, \text{Cor}(X,Y) \end{align}$

Hier ist das Zeichen oder die Zeichenfunktion : sein Wert ist wenn und wenn . Es ist auch wahr, dass wenn , aber dieser Fall betrifft uns nicht: wäre eine Konstante, also in der Nenner und wir können die Korrelation nicht berechnen. Mit Symmetrieargumenten können wir dieses Ergebnis für verallgemeinern : $\text{sgn}(a)$ $\text{sgn}(a) = +1$ $a>0$ $\text{sgn}(a) = -1$ $a<0$ $\text{sgn}(a) = 0$ $a=0$ $aX+b$ $\text{Var}(aX+b) = 0$ $a, \, c \neq 0$

Cor (a X + b, c Y + d) = sgn (a) sgn (c) Cor (X, Y)

$\text{Cor}(aX+b, \, cY+d) = \text{sgn}(a) \, \text{sgn}(c) \, \text{Cor}(X,Y)$

Wir brauchen diese allgemeinere Formel nicht, um die aktuelle Frage zu beantworten, aber ich füge sie hinzu, um die Geometrie der Situation hervorzuheben: Sie besagt einfach, dass die Korrelation unverändert bleibt, wenn eine Variable skaliert oder übersetzt wird, aber das Vorzeichen umkehrt, wenn eine Variable ist reflektiert.

Wir benötigen eine weitere Tatsache: für ein lineares Modell mit einem konstanten Term, die Bestimmungskoeffizient das Quadrat der Mehrfachkorrelationskoeffizient , der die Korrelation zwischen den beobachteten Reaktionen ist und das angepassten Wert des Modells . Dies gilt sowohl für Mehrfach- und einfache Regressionen, aber lassen Sie uns unsere Aufmerksamkeit auf die einfachen linearen Modell beschränken . Das Ergebnis folgt aus der Beobachtung, dass eine skalierte, möglicherweise reflektierte und übersetzte Version von : $R^2$ $R$ $Y$ $\hat Y$ $\hat Y = \hat \beta_0 + \hat \beta_1 X$ $\hat Y$ $X$

R = Cor (\hat{Y}, Y) = Cor ({\hat{β}}_{0} + {\hat{β}}_{1} X, Y) = sgn ({\hat{β}}_{1}) Cor (X, Y) = sgn ({\hat{β}}_{1}) r

$\boxed{R = \text{Cor}(\hat Y, Y) = \text{Cor}(\hat \beta_0 + \hat \beta_1 X, \, Y) = \text{sgn}(\hat \beta_1) \, \text{Cor}(X, Y) = \text{sgn}(\hat \beta_1) \, r}$

Also ist wobei das Vorzeichen mit dem Vorzeichen der geschätzten Steigung übereinstimmt, was garantiert, dass nicht negativ ist. Offensichtlich ist . $R = \pm r$ $R$ $R^2 = r^2$

Das vorstehende Argument wurde vereinfacht, indem keine Quadratsummen berücksichtigt werden mussten. Um dies zu erreichen, habe ich die Details der Beziehung zwischen , die wir normalerweise als Quadratsummen betrachten, und übersprungen , für die wir über Korrelationen von angepassten und beobachteten Antworten nachdenken. Die Symbole lassen die Beziehung tautologisch erscheinen, aber dies ist nicht der Fall, und die Beziehung bricht zusammen, wenn das Modell keinen Intercept-Term enthält! Ich werde eine kurze Skizze eines gibt geometrisches Argument über die Beziehung zwischen und genommen aus einer anderen Frage : das Diagramm in gezeichnet wird - dimensional space $R^2$ $R$ $R^2 = (R)^2$ $R$ $R^2$ $n$ Daher repräsentiert jede Achse (nicht gezeigt) eine einzelne Beobachtungseinheit, und Variablen werden als Vektoren gezeigt. Die Spalten der Entwurfsmatrix sind der Vektor (für den konstanten Term) und der Beobachtungsvektor der erklärenden Variablen, sodass der Spaltenraum eine zweidimensionale Ebene ist. $\mathbf{X}$ $\mathbf{1_n}$

Vektoren im Subjektraum der multiplen Regression

Das angepasste ist die orthogonale Projektion des beobachteten auf den Spaltenraum von . Dies bedeutet, dass der Vektor der Residuen senkrecht zur Ebene und damit zu . Das Punktprodukt ist . Wenn die Residuen zu Null und , dann ist so dass sowohl die Antworten angepasst als auch beobachtet wurden habe Mittelwert . Die gestrichelten Linien im Diagramm und $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{X}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $0 = \mathbf{1_n} \cdot \mathbf{e} = \sum_{i=1}^n e_i$ $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ $\bar{Y}$ $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ , sind daher die zentrierte Vektoren für die beobachteten und Einbau Antworten und der Kosinus des Winkels zwischen ihnen ist , deren Korrelation . $\theta$ $R$

Das Dreieck, das diese Vektoren mit dem Vektor der Residuen bilden, ist rechtwinklig, da in der Ebene liegt, aber orthogonal dazu ist. Pythagoras anwenden: $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Dies ist nur die Zerlegung der Quadratsummen . Die herkömmliche Formel für den Bestimmungskoeffizienten lautet was in diesem Dreieck so ist in der Tat das Quadrat von . Sie kennen vielleicht die Formel , die sofort ergibt , aber beachten Sie, dass ist allgemeiner und wird (wie wir gerade gesehen haben) auf reduziert. $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $1 - \sin^2 \theta = \cos^2 \theta$ $R$ $R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}}$ $\cos^2 \theta$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $\frac{SS_{\text{regression}}}{SS_{\text{total}}}$ wenn ein konstanter Term im Modell enthalten ist .

— Silberfisch
quelle

+1 danke für die Bemühungen, schöne Mathe und Grafik zu machen !!

— Haitao Du

4

Das ist definiert als Der quadratische Stichprobenkorrelationskoeffizient: ist äquivalent, da es leicht überprüft werden kann mit: (siehe Verbeek , §2.4) $R^2$

R^{2} = \frac{\hat{V} ({\hat{y}}_{i})}{\hat{V} (y_{i})} = \frac{1 / (N - 1) \sum_{i = 1}^{N} ({\hat{y}}_{i} - \bar{y})^{2}}{1 / (N - 1) \sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}} = \frac{E S S}{T S S}

$R^2=\frac{\hat{V}(\hat{y}_i)}{\hat{V}(y_i)} =\frac{1/(N-1)\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{1/(N-1)\sum_{i=1}^N(y_i-\bar{y})^2}=\frac{ESS}{TSS}$

r^{2} (y_{i}, {\hat{y}}_{i}) = \frac{{(\sum_{i = 1}^{N} (y_{i} - \bar{y}) ({\hat{y}}_{i} - \bar{y}))}^{2}}{(\sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}) (\sum_{i = 1}^{N} ({\hat{y}}_{i} - \bar{y})^{2})}

$r^2(y_i,\hat{y}_i)=\frac{\left(\sum_{i=1}^N(y_i-\bar{y})(\hat{y}_i-\bar{y})\right)^2}{\left(\sum_{i=1}^N(y_i-\bar{y})^2\right)\left(\sum_{i=1}^N(\hat y_i-\bar{y})^2\right)}$

\hat{V} (y_{i}) = \hat{V} ({\hat{y}}_{i}) + \hat{V} (e_{i})

$\hat V(y_i)=\hat V(\hat y_i)+\hat V(e_i)$

— Sergio
quelle

Könnten Sie weitere Details hinzufügen? Ich habe versucht, dies zu beweisen, aber ohne Erfolg ...

— Ein alter Mann im Meer.