Verändert das Hinzufügen weiterer Variablen zu einer multivariablen Regression die Koeffizienten vorhandener Variablen?


16

Angenommen, ich habe eine multivariable (mehrere unabhängige Variablen) Regression, die aus 3 Variablen besteht. Jede dieser Variablen hat einen bestimmten Koeffizienten. Wenn ich mich entscheide, eine vierte Variable einzuführen und die Regression erneut auszuführen, ändern sich dann die Koeffizienten der drei ursprünglichen Variablen?

Im weiteren Sinne: Wird bei einer multivariablen (mehrfach unabhängigen Variablen) Regression der Koeffizient einer bestimmten Variablen durch den Koeffizienten einer anderen Variablen beeinflusst?


1
Bitte bearbeiten Sie die Frage genauer. Meinen multivariableSie damit mehrere unabhängige Variablen ("multiple regression") oder mehrere abhängige Variablen ("multivariate regression" oder "MAN (C) OVA")?
TTNPHNS

1
Wenn die Antwort nein wäre, gäbe es überhaupt keine Notwendigkeit für eine multivariable Regression! (wir könnten einfach viele
Univariable

1
Das ist ein aufschlussreicher Punkt, @ user603, aber ich denke, es könnte immer noch einen Platz für multiple Regression geben, da die anderen Variablen, wenn sie in einem sinnvollen Zusammenhang mit der Antwort stehen (wenn auch nicht mit der erklärenden Variablen), die verbleibende Varianz verringern und zu einer Verbesserung führen können Kraft & Präzision.
gung - Reinstate Monica

Antworten:


23

Eine Parameterschätzung in einem Regressionsmodell (z. B. ) ändert sich, wenn dem Modell eine Variable, , hinzugefügt wird, die: Xjβ^iXj

  1. korreliert mit der entsprechenden Variablen dieses Parameters, (die sich bereits im Modell befand) undXi
  2. korreliert mit der AntwortvariablenY

Ein geschätztes Beta ändert sich nicht, wenn eine neue Variable hinzugefügt wird, wenn eine der oben genannten nicht korreliert ist. Man beachte , dass , ob sie in der unkorreliert sind Population (dh , oder ) keine Rolle spielt. Entscheidend ist, dass beide Stichprobenkorrelationen genau . Dies ist in der Praxis im Grunde genommen nur dann der Fall, wenn Sie mit experimentellen Daten arbeiten, bei denen die Variablen so manipuliert wurden, dass sie vom Design her nicht korreliert sind. ρ ( X j , Y ) = 0 0ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Beachten Sie auch, dass der Betrag, um den sich die Parameter ändern, möglicherweise nicht besonders aussagekräftig ist (dies hängt zumindest teilweise von Ihrer Theorie ab). Darüber hinaus ist der Betrag, um den sie sich ändern können, eine Funktion der Größen der beiden obigen Korrelationen.

Anders ausgedrückt ist es nicht richtig, dieses Phänomen als "den Koeffizienten einer gegebenen Variablen, der durch den Koeffizienten einer anderen Variablen beeinflusst wird" zu betrachten. Es sind nicht die Betas , die sich gegenseitig beeinflussen. Dieses Phänomen ist eine natürliche Folge des Algorithmus, den statistische Software zur Schätzung der Steigungsparameter verwendet. Stellen Sie sich eine Situation vor, in der durch und , die wiederum miteinander korrelieren. Wenn sich nur im Modell befindet, wird ein Teil der Variation in , die auf ist, unangemessenerweise . Dies bedeutet, dass der Wert vonX i X j X i Y X j X i X iYXiXjXiYXjXiXiist voreingenommen; Dies wird als ausgelassene variable Vorspannung bezeichnet .


Sehr guter Punkt, um in diesem letzten Satz zu machen.
Glen_b


@gung Ich weiß, dass Ihre Antwort alt ist, aber ich habe gerade diese ideone.com/6CAkSR ausprobiert, bei der ich und korreliert sind und mit korreliert ist . Aber als ich zum Modell hinzufügte , änderte sich der Parameter von x2, obwohl mit ist . Sie sagten in Ihrer Antwort "korreliert mit der Antwortvariablen, Ein geschätztes Beta ändert sich nicht, wenn eine neue Variable hinzugefügt wird, wenn eine der oben genannten nicht korreliert ist." Liege ich falsch? yx2x1yx1x1yY
Floyd

1
s1

@gung vielen Dank für die Antwort zurück. Kennen Sie eine Möglichkeit, solche perfekten Daten zu erstellen? Ich weiß, dass das im wirklichen Leben nicht passieren kann
Floyd

3

Es ist mathematisch möglich, dass sich die Koeffizienten nicht ändern, es ist jedoch unwahrscheinlich, dass sich die realen Daten überhaupt nicht ändern, selbst wenn alle unabhängigen Variablen voneinander unabhängig sind. Wenn dies jedoch der Fall ist, werden die Änderungen (mit Ausnahme des Abschnitts) zu 0 tendieren:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

In der realen Welt sind jedoch unabhängige Variablen oft miteinander verwandt. In diesem Fall ändert das Hinzufügen einer vierten Variablen zur Gleichung die anderen Koeffizienten, manchmal um ein Vielfaches.

Dann gibt es mögliche Wechselwirkungen ... aber das ist eine andere Frage.


1

Im Allgemeinen ändert das Hinzufügen einer Variablen die früheren Koeffizienten fast immer.

Tatsächlich ist dies im Wesentlichen die Ursache für das Simpson-Paradoxon , bei dem sich Koeffizienten aufgrund ausgelassener Kovariaten ändern und sogar das Vorzeichen umkehren können.

Damit dies nicht passiert, müssten die neuen Variablen zu den vorherigen orthogonal sein. Dies geschieht häufig in geplanten Experimenten, ist jedoch bei Daten, bei denen das Muster der unabhängigen Variablen nicht geplant ist, sehr unwahrscheinlich.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.