Wenn Sie ein Regressionsmodell wie , das Modell und der OLS-Schätzer nicht, dass einfach das Quadrat von ist , es "denkt" nur, dass es eine andere Variable ist. Natürlich gibt es eine gewisse Kollinearität, die in die Anpassung einbezogen wird (z. B. sind die Standardfehler größer als sonst), aber viele Variablenpaare können etwas kollinear sein, ohne dass eines davon eine Funktion des anderen ist. x 2 i xiy^i=β^0+β^1xi+β^2x2ix2ixi
Wir erkennen nicht, dass das Modell wirklich zwei separate Variablen enthält, da wir wissen, dass letztendlich dieselbe Variable wie , die wir transformiert und eingeschlossen haben, um eine krummlinige Beziehung zwischen und zu erfassen . Dieses Wissen über die wahre Natur von in Verbindung mit unserer Annahme, dass es eine krummlinige Beziehung zwischen und gibt, erschwert es uns, die Art und Weise zu verstehen, in der es aus der Perspektive des Modells immer noch linear ist. Zusätzlich visualisieren wir und x i x i y i x 2 i x i y i x i x 2 i x , yx2ixixiyix2ixiyixix2izusammen, indem Sie die Randprojektion der 3D-Funktion auf die 2D- Ebene betrachten. x,y
Wenn Sie nur und , können Sie versuchen, diese im gesamten 3D-Raum zu visualisieren (obwohl es immer noch ziemlich schwierig ist, wirklich zu sehen, was los ist). Wenn Sie die angepasste Funktion im gesamten 3D-Raum betrachten, werden Sie feststellen, dass es sich bei der angepassten Funktion um eine 2D-Ebene und darüber hinaus um eine flache Ebene handelt. Wie ich schon sagte, ist es schwer zu erkennen, da die Daten nur entlang einer gekrümmten Linie existieren, die durch diesen 3D-Raum verläuft (diese Tatsache ist die visuelle Manifestation ihrer Kollinearität). Das können wir hier versuchen. Stellen Sie sich vor, dies ist das passende Modell: x 2 i x i , x 2 ixix2ixi,x2i
x = seq(from=0, to=10, by=.5)
x2 = x**2
y = 3 + x - .05*x2
d.mat = data.frame(X1=x, X2=x2, Y=y)
# 2D plot
plot(x, y, pch=1, ylim=c(0,11), col="red",
main="Marginal projection onto the 2D X,Y plane")
lines(x, y, col="lightblue")
# 3D plot
library(scatterplot3d)
s = scatterplot3d(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, color="gray", pch=1,
xlab="X1", ylab="X2", zlab="Y", xlim=c(0, 11), ylim=c(0,101),
zlim=c(0, 11), type="h", main="In pseudo-3D space")
s$points(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, col="red", pch=1)
s$plane3d(Intercept=3, x.coef=1, y.coef=-.05, col="lightblue")
In diesen Bildern, die Screenshots einer gedrehten 3D-Figur sind, die mit denselben Daten unter Verwendung des rgl
Pakets erstellt wurden, ist es möglicherweise einfacher, sie zu sehen .
Wenn wir sagen, dass ein Modell, das "linear in den Parametern" ist, wirklich linear ist, ist dies nicht nur eine mathematische Sophistik. Mit Variablen passen Sie eine dimensionale Hyperebene in einen dimensionalen Hyperraum an (in unserem Beispiel eine 2D-Ebene in einem 3D-Raum). Diese Hyperebene ist wirklich 'flach' / 'linear'; Es ist nicht nur eine Metapher. ppp+1