Geometrische Interpretation des multiplen Korrelationskoeffizienten


24

Ich interessiere mich für die geometrische Bedeutung der Mehrfachkorrelation R und des Bestimmungskoeffizienten R2 in der Regression yi=β1+β2x2,i++βkxk,i+ϵi oder für die Vektorschreibweise ,

y=Xβ+ϵ

Hier ist die Designmatrix X hat n Zeilen und k Spalten, von denen die erste ist , x1=1n , ein Vektor von 1s Das entspricht dem intercept .β1

Die Geometrie ist im dimensionalen Subjektraum interessanter als im k- dimensionalen variablen Raum. Definieren Sie die Hutmatrix:nk

H=X(XX)1X

Dies ist eine orthogonale Projektion auf den Spaltenraum von , dh die Ebene durch den Ursprung, die von den k Vektoren aufgespannt wird, die jede Variable x i darstellen , deren erster Wert 1 n ist . Dann H den Vektor von beobachteten Antworten projiziert y auf sein „Schatten“ auf dem flachen, der Vektor der angepassten Werte y = H y , und wenn wir uns auf dem Weg des Vorsprungs wir den Vektor der Residuen siehe e = y - yXkxi1nHyy^=Hye=yy^bildet die dritte Seite eines Dreiecks. Dies sollte uns zwei Wege zu einer geometrischen Interpretation von liefern:R2

  1. Das Quadrat der multiple Korrelationskoeffizient , der als die Korrelation zwischen definiert ist y und y . Dies wird geometrisch als der Cosinus eines Winkels angezeigt.Ryy^
  2. In Bezug auf die Längen der Vektoren gilt zum Beispiel: .SSresidual=i=1nei2=e2

Ich würde mich freuen, einen kurzen Bericht zu sehen, der erklärt:

  • Die feineren Details für (1) und (2),
  • Warum (1) und (2) gleichwertig sind,
  • Kurz gesagt, wie die geometrische Einsicht die grundlegenden Eigenschaften von R 2 sichtbar machtR2 , zum Beispiel warum es auf 1 geht, wenn die Rauschvarianz auf 0 geht Bild.)

Ich schätze, dass dies einfacher ist, wenn die Variablen zuerst zentriert werden, wodurch der Abschnitt aus der Frage entfernt wird. In den meisten Lehrbuchkonten, die multiple Regression einführen, ist die Entwurfsmatrix jedoch so, wie ich es dargelegt habe. Natürlich ist es in Ordnung, wenn sich eine Exposition mit dem Raum befasst, der von den zentrierten Variablen umspannt wird, aber für einen Einblick in die lineare Algebra des Lehrbuchs wäre es sehr hilfreich, dies auf das zurückzubeziehen, was geometrisch in der unzentrierten Situation geschieht. Eine wirklich aufschlussreiche Antwort könnte erklären, was genau geometrisch zerfällt, wenn der Intercept-Term verworfen wird - dh wenn der Vektor 1X1nwird aus dem Spannsatz entfernt. Ich glaube nicht, dass dieser letzte Punkt allein durch die Berücksichtigung der zentrierten Variablen angegangen werden kann.

Antworten:


47

Wenn es im Modell einen konstanten Term gibt, liegt im Spaltenraum von X (ebenso wie ˉ Y 1 n , was später nützlich sein wird). Der Einbau Y ist die orthogonale Projektion des beobachteten Y auf den flachen nach dieser Spalte Raum gebildet. Das heißt , der Vektor der Residuen e = y - y ist senkrecht zu dem flachen und damit zu 1 n . Wenn wir das Skalarprodukt betrachten, können wir sehen, dass n i = 1 e i = 0 ist , also die Komponenten von1nXY¯1nY^Ye=yy^1ni=1nei=0e muss die Summe Null sein. Da wir schließendaß Σ n i = 1 Y i = Σ n i = 1 ^ Y i , so daß beide Einbau und beobachteten Reaktionen Mittelwert haben ˉ Y .Yi=Yi^+eii=1nYi=i=1nYi^Y¯

Vectors in subject space of multiple regression

Die gestrichelten Linien im Diagramm repräsentieren und Y - ˉ Y 1 n , welche die sind zentriert Vektoren für die beobachteten und Einbau Antworten. Der Kosinus des Winkels θ zwischen diesen Vektoren wird daher die Korrelation sein , Y und Y , die per Definition ist die multiple Korrelationskoeffizient R . Das Dreieck dieser Vektoren mit dem Vektor der Residuen bilden ist rechtwinklige da Y - ˉ Y 1 n eYY¯1nY^Y¯1nθYY^RY^Y¯1n liegt in den flachen , aber eist orthogonal dazu. Daher:

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

We could also apply Pythagoras to the triangle:

YY¯1n2=YY^2+Y^Y¯1n2

Which may be more familiar as:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

This is the decomposition of the sums of squares, SStotal=SSresidual+SSregression.

The standard definition for the coefficient of determination is:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.

Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.


1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica

2
+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).
ttnphns
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.