Wo ist der erklärende Effekt der gemeinsamen Varianz zwischen Kovariaten in Regressionsverfahren zu berücksichtigen?

Im Anschluss an die hervorragenden Antworten für:

Ist die Reihenfolge der erklärenden Variablen bei der Berechnung ihrer Regressionskoeffizienten von Bedeutung?

(Was ich aus pädagogischer Sicht als unglaublich nützlich empfunden habe) Ich habe mich gefragt, wie genau es gelingt, Regressionskoeffizienten bereitzustellen, wenn wir mit hohen kollinearen Daten arbeiten (abgesehen von dem hohen Standardfehler dieser Schätzungen).

Bearbeiten : Der Einfachheit halber habe ich den Abschnitt in der verknüpften Frage reproduziert, der zum Kern der Verwirrung führt (aus Elemente des statistischen Lernens). Die ersten beiden Bilder liefern den Hintergrund, aber der kursiv gedruckte Abschnitt im endgültigen Bild führt zur Wurzel der Intuition, mit der ich zu kämpfen habe:

Meine Frage in Worten lautet: Wenn, wie oben angegeben, mehrere Regressionskoeffizienten die Wirkung jeder Kovariate auf eine abhängige Variable ausdrücken, die die Variabilität, die durch andere Variablen erklärt werden kann, herausgefiltert hat, wo ist die erklärende Wirkung der gemeinsamen Variabilität der Kovariaten entfielen?

Hinweis Ich hoffe, hier die Intuition zu bekommen - die Algebra und Geometrie der Lösung und beide ziemlich leicht zu verstehen.

Betrachten Sie als Beispiel, das zu erläutern versucht, ein logisches Extrem, bei dem:

Y = X + ϵ_{y}

$Y = X + \epsilon_y$

ϵ_{y} \sim N (0, 0.1)

$\epsilon_y \sim N(0,0.1)$

X_{1} = X + ϵ_{1}

$X_1 = X + \epsilon_1$

X_{2} = X + ϵ_{2}

$X_2 = X + \epsilon_2$

ϵ_{1} \sim ϵ_{2} \sim N (0, 0.001)

$\epsilon_1 \sim \epsilon_2 \sim N(0,0.001)$

Das heißt, und haben eine starke lineare Beziehung und es gibt eine starke Kollinearität zwischen und die durch ihren gemeinsamen Faktor . Nehmen wir nun an, wir versuchen: $Y$ $X$ $X_1$ $X_2$ $X$

Y \sim X_{1} + X_{2}

$Y \sim X_1 + X_2$

Nach dem Gram-Schmidt-Verfahren wird durch das Residuum von oder auf den anderen Kovariaten (in diesem Fall nur untereinander) die gemeinsame Varianz zwischen ihnen effektiv entfernt (hier kann es sein, dass ich falsch verstehe), aber dies beseitigt sicherlich die gemeinsame Element, das es schafft, die Beziehung zu zu erklären ? $X_1$ $X_2$ $Y$

Bearbeiten : Um einen Punkt zu verdeutlichen, der im Folgenden ausgeführt wird: Wie in der verknüpften Frage ausgeführt, werden im GS-Verfahren die multiplen Regressionskoeffizienten nicht aus den Zwischenkoeffizienten generiert, die "auf dem Weg" zum endgültigen Residuum erzeugt werden. Das heißt, um den Koeffizienten für , nehmen wir die GS-Prozedur von Achsenabschnitt> > . Um dann den Koeffizienten für zu erzeugen, würden wir Intercept> > . In beiden Fällen geht die entscheidende gemeinsame Varianz aufgrund von und die daraus resultierende Beziehung zu verloren. $X_2$ $X_1$ $X_2$ $X_1$ $X_2$ $X_1$ $X$ $Y$

— Sue Doh Nimh
quelle

Antworten:

Obwohl Sie sagen, dass Ihnen die Geometrie ziemlich klar ist, halte ich es für eine gute Idee, sie zu überprüfen. Ich habe diese Rückseite einer Umschlagskizze gemacht:

Die linke Nebenhandlung ist dieselbe wie im Buch: Betrachten Sie zwei Prädiktoren und ; Als Vektoren überspannen und eine Ebene im dimensionalen Raum, und wird auf diese Ebene projiziert, was zu . $x_1$ $x_2$ $\mathbf x_1$ $\mathbf x_2$ $n$ $\mathbf y$ $\hat {\mathbf y}$

Das mittlere Unterplot zeigt die Ebene für den Fall, dass und $X$ $\mathbf x_1$ $\mathbf x_2$ sind nicht orthogonal, aber beide haben eine Einheitslänge. Die Regressionskoeffizienten $\beta_1$ und $\beta_2$ kann durch eine nicht orthogonale Projektion von erhalten werden $\hat{\mathbf y}$ auf zu $\mathbf x_1$ und $\mathbf x_2$ : das sollte auf dem Bild ziemlich klar sein. Aber was passiert, wenn wir der Orthogonalisierungsroute folgen?

Die zwei orthogonalisierten Vektoren $\mathbf z_1$ und $\mathbf z_2$ aus Algorithmus 3.1 sind ebenfalls in der Abbildung dargestellt. Beachten Sie, dass jeder von ihnen über ein separates Gram-Schmidt-Orthogonalisierungsverfahren erhalten wird (separater Lauf von Algorithmus 3.1): $\mathbf z_1$ ist der Rest von $\mathbf x_1$ wenn am zurückgegangen $\mathbf x_2$ ans $\mathbf z_2$ ist der Rest von $\mathbf x_2$ wenn am zurückgegangen $\mathbf x_1$ . Deshalb $\mathbf z_1$ und $\mathbf z_2$ sind orthogonal zu $\mathbf x_2$ und $\mathbf x_1$ jeweils und ihre Längen sind kleiner als $1$ . Das ist entscheidend.

Wie im Buch angegeben, der Regressionskoeffizient $\beta_i$ erhalten werden als

β_{i} = \frac{z_{i} \cdot y}{‖ z_{i} ‖^{2}} = \frac{e_{z_{i}} \cdot y}{‖ z_{i} ‖},

$\beta_i = \frac{\mathbf z_i \cdot \mathbf y}{\|\mathbf z_i\|^2} =\frac{\mathbf e_{\mathbf z_i} \cdot \mathbf y}{\|\mathbf z_i\|},$ Dabei bezeichnet einen Einheitsvektor in Richtung von . Wenn ich in meiner Zeichnung auf projiziere, ist die Länge der Projektion (in der Abbildung gezeigt) der Nominator für diesen Bruch. Um den tatsächlichen Wert zu erhalten, muss man durch die Länge von dividieren, die kleiner als , dh das ist größer als die Länge der Projektion.

e_{z_{i}}

$\mathbf e_{\mathbf z_{i}}$

z_{i}

$\mathbf z_i$

\hat{y}

$\hat{\mathbf y}$

z_{i}

$\mathbf z_i$

β_{i}

$\beta_i$

z_{i}

$\mathbf z_i$

1

$1$

β_{i}

$\beta_i$

Überlegen Sie nun, was im Extremfall einer sehr hohen Korrelation passiert (rechte Nebenzeichnung). Beide sind beträchtlich, aber beide Vektoren sind winzig, und die Projektionen von auf die Richtungen von sind ebenfalls winzig; Das ist es, denke ich, was dich letztendlich beunruhigt. Um jedoch Werte zu erhalten, müssen wir diese Projektionen um inverse Längen von , um die richtigen Werte zu erhalten. $\beta_i$ $\mathbf z_i$ $\hat{\mathbf y}$ $\mathbf z_i$ $\beta_i$ $\mathbf z_i$

Nach dem Gram-Schmidt-Verfahren entfernt der Rest von X1 oder X2 auf den anderen Kovariaten (in diesem Fall nur untereinander) effektiv die gemeinsame Varianz zwischen ihnen (dies kann der Punkt sein, an dem ich falsch verstehe), aber dies beseitigt sicherlich die gemeinsame Element, das es schafft, die Beziehung zu Y zu erklären?

Um es noch einmal zu wiederholen: Ja, die "gemeinsame Varianz" wird fast (aber nicht vollständig) aus den Residuen "entfernt" - deshalb sind die Projektionen auf und so kurz. Das Gram-Schmidt-Verfahren kann dies jedoch berücksichtigen, indem es durch die Längen von und normalisiert wird . Die Längen stehen in umgekehrter Beziehung zur Korrelation zwischen und , sodass am Ende das Gleichgewicht wiederhergestellt wird. $\mathbf z_1$ $\mathbf z_2$ $\mathbf z_1$ $\mathbf z_2$ $\mathbf x_1$ $\mathbf x_2$

Update 1

Im Anschluss an die Diskussion mit @mpiktas in den Kommentaren: die obige Beschreibung ist nicht , wie Gram-Schmidt - Verfahren würde in der Regel zu berechnen Regressionskoeffizienten angewandt werden. Anstatt Algorithmus 3.1 viele Male auszuführen (jedes Mal, wenn die Sequenz der Prädiktoren neu angeordnet wird), kann man alle Regressionskoeffizienten aus dem einzelnen Lauf erhalten. Dies ist in Hastie et al. auf der nächsten Seite (Seite 55) und ist der Inhalt von Übung 3.4. Aber als ich die Frage von OP verstand, bezog sie sich auf den Ansatz mit mehreren Läufen (der explizite Formeln für liefert ). $\beta_i$

Update 2

Als Antwort auf den Kommentar von OP:

Ich versuche zu verstehen, wie die "gemeinsame Erklärungskraft" einer (Unter-) Menge von Kovariaten zwischen den Koeffizientenschätzungen dieser Kovariaten "verteilt" ist. Ich denke, die Erklärung liegt irgendwo zwischen der von Ihnen bereitgestellten geometrischen Darstellung und mpiktas Punkt darüber, wie sich die Koeffizienten zum Regressionskoeffizienten des gemeinsamen Faktors summieren sollten

Ich denke, wenn Sie versuchen zu verstehen, wie der "gemeinsame Teil" der Prädiktoren in den Regressionskoeffizienten dargestellt wird, müssen Sie überhaupt nicht an Gram-Schmidt denken. Ja, es wird zwischen den Prädiktoren "verteilt". Eine vielleicht nützlichere Möglichkeit, darüber nachzudenken, besteht darin , die Prädiktoren mit PCA zu transformieren , um orthogonale Prädiktoren zu erhalten. In Ihrem Beispiel gibt es eine große erste Hauptkomponente mit nahezu gleichen Gewichten für und . Der entsprechende Regressionskoeffizient muss also zu gleichen Anteilen zwischen und "aufgeteilt" werden . Die zweite Hauptkomponente ist klein und ist fast orthogonal dazu. $x_1$ $x_2$ $x_1$ $x_2$ $\mathbf y$

In meiner obigen Antwort habe ich angenommen, dass Sie bezüglich des Gram-Schmidt-Verfahrens und der resultierenden Formel für in Bezug auf spezifisch verwirrt sind . $\beta_i$ $z_i$

— Amöbe
quelle

Hervorragende Antwort, vielen Dank. Um die Intuition abzurunden und die resultierenden Koeffizienten zu interpretieren , sollten wir dies nicht , wenn Hastie sagt, dass ' den zusätzlichen Beitrag von auf , nachdem für , , ... .' Dies bedeutet, dass die Koeffizienten versuchen, nur den "eindeutigen" Beitrag jedes Regressors zu erklären, aber den eindeutigen Beitrag, der durch die gemeinsame Erklärungskraft mit anderen Kovariaten in der Menge "aufgeblasen" wird (was auch gut zeigt, warum Sie Koeffizienten nicht vertrauen sollten aus multikollinearen Variablen).

β_{j}

$\beta_j$

x_{j}

$x_j$

y

$y$

x_{j}

$x_j$

x_{0}

$x_0$

x_{1}

$x_1$

x_{p}

$x_p$

— Sue Doh Nimh

Ich denke man sollte hier vorsichtig sein. Was genau ist der "einzigartige" Beitrag und was genau ist der "zusätzliche" Beitrag? Was Hastie et al. sagen wir, dass kann, indem man und es auf alle anderen Prädiktoren , um das verbleibende , und dann auf . Und das ist richtig. Beachten Sie, dass keine zusätzliche Inflation erforderlich ist! Die von mir beschriebene "Inflation" geschieht automatisch, weil kleiner als . [Fortsetzung]

β_{j}

$\beta_j$

x_{j}

$x_j$

z_{j}

$z_j$

y

$y$

z_{j}

$z_j$

z_{j}

$z_j$

x_{j}

$x_j$

— Amöbe

Vielleicht denken Sie an ein hypothetisches alternatives Verfahren, bei dem zuerst auf alle Prädiktoren außer wird und dann der Rest auf . Das würde ich vielleicht lieber den "einzigartigen" oder "zusätzlichen" Beitrag von . Beachten Sie jedoch, dass dies eine andere Prozedur ist und das Ergebnis nicht gleich .

y

$y$

x_{j}

$x_j$

x_{j}

$x_j$

x_{j}

$x_j$

β_{j}

$\beta_j$

— Amöbe

Sie verstehen richtig, wie der Algorithmus funktioniert. Sie erhalten nur den letzten Koeffizienten, daher wenden Sie den Algorithmus mehrmals an, um alle Koeffizienten zu erhalten. Das ist vollkommen in Ordnung. Aber Hastie schlägt nicht vor, die Koeffizienten auf diese Weise zu erhalten. Der Algorithmus wird einmal ausgeführt, und dann erhalten Sie die Koeffizienten durch Rekursion. Auch die GS-Prozedur wird normalerweise (in den mathematischen Texten) einmal ausgeführt, dh wenn ein Satz von Vektoren gegeben ist, erzeugt sie einen orthogonalen Satz von Vektoren.

— mpiktas

@amoeba Ja danke, genau das habe ich gesucht. Für die Aufzeichnung ja, ich bezog mich auch auf sequentielle Wiederholungen des GS-Verfahrens, um Schätzungen zu erhalten. Zwar habe ich mich damit vom Kern der Frage abgelenkt, aber die breiteren Antworten waren unglaublich informativ. :-)

— Sue Doh Nimh

Die GS-Prozedur würde mit und dann zur Orthogonalisierung von . Da und Aktie wäre das Ergebnis praktisch Null in Ihrem Beispiel. Das gemeinsame Element bleibt jedoch erhalten, da wir mit haben und immer noch . $X_1$ $X_2$ $X_1$ $X_2$ $X$ $X$ $X_1$ $X_1$ $X$

Da und gemeinsames , würden wir erhalten, dass der Rest von nach der Orthogonalisierung praktisch Null ist, wie in der Zitierung angegeben. $X_1$ $X_2$ $X$ $X_2$

In diesem Fall könnte man argumentieren, dass das ursprüngliche Problem der multiplen Regression schlecht gestellt ist, so dass es keinen Sinn macht, fortzufahren, dh wir sollten den GS-Prozess stoppen und das ursprüngliche Problem der multiplen Regression als wiederholen . In diesem Fall verlieren wir den gemeinsamen Faktor und ignorieren korrekt , da er uns keine neuen Informationen liefert, die wir nicht haben. $Y\sim X_1$ $X$ $X_2$

Natürlich können wir mit der GS-Prozedur fortfahren und den Koeffizienten für berechnen und auf das ursprüngliche Problem der multiplen Regression zurückrechnen. Da wir keine perfekte Kolinearität haben, ist dies theoretisch möglich. Praktisch hängt es von der numerischen Stabilität der Algorithmen ab. Schon seit $X_2$

α X_{1} + β X 2 = (α + β) X + α ϵ_{1} + β ϵ_{2}

$\alpha X_1+ \beta X2 = (\alpha+\beta)X +\alpha\epsilon_1 + \beta\epsilon_2$

Die Regression erzeugt die Koeffizienten und so dass (wir werden wegen und keine strikte Gleichheit haben ). $Y\sim X_1 + X_2$ $\alpha$ $\beta$ $\alpha+\beta \approx 1$ $\epsilon_1$ $\epsilon_2$

Hier ist das Beispiel in R:

> set.seed(1001)
> x<-rnorm(1000)
> y<-x+rnorm(1000, sd = 0.1)
> x1 <- x + rnorm(1000, sd =0.001)
> x2 <- x + rnorm(1000, sd =0.001)
> lm(y~x1+x2)

Call:
lm(formula = y ~ x1 + x2)

Coefficients:
(Intercept)           x1           x2  
 -0.0003867   -1.9282079    2.9185409

Hier habe ich die GS-Prozedur übersprungen, weil die lmErgebnisse machbar waren, und in diesem Fall schlägt die Neuberechnung der Koeffizienten aus der GS-Prozedur nicht fehl.

— mpiktas
quelle

Wie in der verknüpften Frage ausgeführt, werden die Regressionskoeffizienten nicht aus den Zwischenkoeffizienten erzeugt, die "auf dem Weg" zum endgültigen Residuum erzeugt werden. Das heißt, um den Koeffizienten für , nehmen wir die GS-Prozedur von Achsenabschnitt> > . Um dann den Koeffizienten für zu erzeugen, würden wir Intercept> > . In beiden Fällen geht die entscheidende gemeinsame Varianz aufgrund von X und die daraus resultierende Beziehung zu Y verloren.

X_{2}

$X_2$

X_{1}

$X_1$

X_{2}

$X_2$

X_{1}

$X_1$

X_{2}

$X_2$

X_{1}

$X_1$

— Sue Doh Nimh