Etwas kontrollieren und etwas ignorieren ist nicht dasselbe. Wir betrachten ein Universum, in dem nur drei Variablen existieren: , und . Wir möchten ein Regressionsmodell aufbauen, das vorhersagt , und wir sind besonders an seiner Beziehung zu interessiert . Es gibt zwei grundsätzliche Möglichkeiten. YX1X2YX1
- Wir könnten die Beziehung zwischen und beim Steuern für bewerten :
oderX1YX2
Y=β0+β1X1+β2X2
wir könnten die Beziehung zwischen und einschätzen, während wir ignorieren : X1Y X2
Y=β0+β1X1
Zugegeben, dies sind sehr einfache Modelle, aber sie stellen unterschiedliche Betrachtungsweisen dar, wie sich die Beziehung zwischen und manifestiert. Häufig sind die geschätzten in beiden Modellen ähnlich, sie können jedoch sehr unterschiedlich sein. Was am wichtigsten ist, um festzustellen, wie unterschiedlich sie sind, ist die Beziehung (oder das Fehlen derselben) zwischen und . Betrachten Sie diese Abbildung: X1Yβ^1X1X2
In diesem Szenario ist mit korreliert . Da der Plot zweidimensional ist, ignoriert er (möglicherweise ironisch). Daher habe ich die Werte von für jeden Punkt mit unterschiedlichen Symbolen und Farben angegeben (der folgende Pseudo-3D-Plot bietet eine andere Möglichkeit, die Struktur anzuzeigen der Daten). Wenn wir ein Regressionsmodell , das ignoriert , erhalten wir die durchgezogene schwarze Regressionslinie. Wenn wir ein Modell , das für gesteuert wird , erhalten wir eine Regressionsebene, die wiederum schwer zu zeichnen ist. Ich habe also drei Schnitte durch diese Ebene gezeichnet, wobei , undX1X2X2X2 X2X2X2=1X2=2X2=3. Somit haben wir die Linien, die die Beziehung zwischen und , die gelten, wenn wir für steuern . Bemerkenswert ist, dass die Steuerung für nicht eine einzelne Zeile ergibt, sondern eine Reihe von Zeilen. X1YX2 X2
Eine andere Möglichkeit, über den Unterschied zwischen Ignorieren und Steuern für eine andere Variable nachzudenken , besteht darin, den Unterschied zwischen einer Randverteilung und einer bedingten Verteilung zu betrachten . Betrachten Sie diese Abbildung:
( Dies ergibt sich aus meiner Antwort hier: Was ist die Intuition hinter bedingten Gaußschen Verteilungen? )
Wenn Sie bei der normalen Kurve nach links von der Hauptfigur gezeichnet aussehen, das ist die Randverteilung von . Es ist die Verteilung von wenn wir die Beziehung zu ignorieren . In der Hauptfigur gibt es zwei Normalkurven, die bedingte Verteilungen von bei und . Die Steuerung der bedingten Verteilungen für die Ebene von , während die marginale Verteilung diese ignoriert . YYXYX1=25X1=45X1