Es kommt auf das Ziel der Folgerung an. Wenn Sie Rückschlüsse darauf ziehen möchten, ob eine Interaktion vorliegt, beispielsweise in einem kausalen Kontext (oder allgemeiner, wenn Sie den Interaktionskoeffizienten interpretieren möchten), ist diese Empfehlung Ihres Professors sinnvoll und stammt aus dem Tatsache, dass eine falsche Angabe der funktionalen Form zu falschen Schlussfolgerungen über die Interaktion führen kann .
Hier ist ein einfaches Beispiel, in dem es keinen Interaktionsterm zwischen x1 und x2 in der Strukturgleichung von y gibt. Wenn Sie jedoch den quadratischen Term von x1 nicht einbeziehen , würden Sie fälschlicherweise schließen, dass x1 mit x2 interagiert, wenn in der Tat nicht.
set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))
Call:
lm(formula = y ~ x1 + x2 + x1:x2)
Residuals:
Min 1Q Median 3Q Max
-3.7781 -0.8326 -0.0806 0.7598 7.7929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.30116 0.04813 6.257 5.81e-10 ***
x1 1.03142 0.05888 17.519 < 2e-16 ***
x2 1.01806 0.03971 25.638 < 2e-16 ***
x1:x2 0.63939 0.02390 26.757 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared: 0.7935, Adjusted R-squared: 0.7929
F-statistic: 1276 on 3 and 996 DF, p-value: < 2.2e-16
Dies kann einfach als ein Fall einer ausgelassenen variablen Vorspannung interpretiert werden, und hier ist x21 die ausgelassene Variable. Wenn Sie zurückgehen und den quadratischen Term in Ihre Regression einbeziehen, verschwindet die offensichtliche Interaktion.
summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))
Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))
Residuals:
Min 1Q Median 3Q Max
-3.4574 -0.7073 0.0228 0.6723 3.7135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0419958 0.0398423 -1.054 0.292
x1 1.0296642 0.0458586 22.453 <2e-16 ***
x2 1.0017625 0.0309367 32.381 <2e-16 ***
I(x1^2) 1.0196002 0.0400940 25.430 <2e-16 ***
x1:x2 -0.0006889 0.0313045 -0.022 0.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared: 0.8748, Adjusted R-squared: 0.8743
F-statistic: 1739 on 4 and 995 DF, p-value: < 2.2e-16
Natürlich gilt diese Argumentation nicht nur für quadratische Terme, sondern auch für die Fehlspezifikation der Funktionsform im Allgemeinen. Ziel ist es, die bedingte Erwartungsfunktion angemessen zu modellieren, um die Interaktion zu bewerten. Wenn Sie sich auf die Modellierung mit linearer Regression beschränken, müssen Sie diese nichtlinearen Terme manuell einfügen. Eine Alternative besteht jedoch darin, eine flexiblere Regressionsmodellierung zu verwenden, beispielsweise die Kernel-Ridge-Regression .