Warum wird die polynomiale Regression als Sonderfall der multiplen linearen Regression angesehen?

38

Wenn die polynomiale Regression nichtlineare Beziehungen modelliert, wie kann sie als Sonderfall der multiplen linearen Regression betrachtet werden?

Wikipedia stellt fest: "Obwohl die polynomiale Regression ein nichtlineares Modell an die Daten anpasst, ist sie als statistisches Schätzproblem linear in dem Sinne, dass die Regressionsfunktion in den geschätzten unbekannten Parametern linear ist aus den Daten. " $\mathbb{E}(y | x)$

Wie ist die polynomiale Regression in den unbekannten Parametern linear, wenn die Parameter Koeffizienten für Terme mit der Ordnung 2 sind? $\ge$

— Gavinmh
quelle

4

Die zu schätzenden Parameter sind (multi-) linear. Wenn Sie wurden Schätzung der Werte der Exponenten, würde das Schätzungsproblem nicht linear; Durch Quadrieren eines Prädiktors wird dieser Exponent jedoch auf genau 2 festgelegt.

— Setzen Sie Monica am

Nach meinem Verständnis gelten der Kommentar von @ user777 sowie die folgenden Antworten nicht nur für die Polynom-Regression, sondern auch für jede Regression, die eine Bijektion der Prädiktorvariablen verwendet. zB jede umkehrbare Funktion, wie , usw. (plus einige andere Funktionen, offensichtlich, da 2. Potenzen nicht bijektiv sind).

l o g (x)

$log(x)$

e^{x}

$e^x$

— Naught101

Vielen Dank an alle; Alle Antworten und Kommentare waren hilfreich.

— Gavinmh

53

Wenn Sie ein Regressionsmodell wie , das Modell und der OLS-Schätzer nicht, dass einfach das Quadrat von ist , es "denkt" nur, dass es eine andere Variable ist. Natürlich gibt es eine gewisse Kollinearität, die in die Anpassung einbezogen wird (z. B. sind die Standardfehler größer als sonst), aber viele Variablenpaare können etwas kollinear sein, ohne dass eines davon eine Funktion des anderen ist. $\hat y_i = \hat\beta_0 + \hat\beta_1x_i + \hat\beta_2x^2_i$ $x^2_i$ $x_i$

Wir erkennen nicht, dass das Modell wirklich zwei separate Variablen enthält, da wir wissen, dass letztendlich dieselbe Variable wie , die wir transformiert und eingeschlossen haben, um eine krummlinige Beziehung zwischen und zu erfassen . Dieses Wissen über die wahre Natur von in Verbindung mit unserer Annahme, dass es eine krummlinige Beziehung zwischen und gibt, erschwert es uns, die Art und Weise zu verstehen, in der es aus der Perspektive des Modells immer noch linear ist. Zusätzlich visualisieren wir und $x^2_i$ $x_i$ $x_i$ $y_i$ $x^2_i$ $x_i$ $y_i$ $x_i$ $x^2_i$ zusammen, indem Sie die Randprojektion der 3D-Funktion auf die 2D- Ebene betrachten. $x, y$

Wenn Sie nur und , können Sie versuchen, diese im gesamten 3D-Raum zu visualisieren (obwohl es immer noch ziemlich schwierig ist, wirklich zu sehen, was los ist). Wenn Sie die angepasste Funktion im gesamten 3D-Raum betrachten, werden Sie feststellen, dass es sich bei der angepassten Funktion um eine 2D-Ebene und darüber hinaus um eine flache Ebene handelt. Wie ich schon sagte, ist es schwer zu erkennen, da die Daten nur entlang einer gekrümmten Linie existieren, die durch diesen 3D-Raum verläuft (diese Tatsache ist die visuelle Manifestation ihrer Kollinearität). Das können wir hier versuchen. Stellen Sie sich vor, dies ist das passende Modell: $x_i$ $x^2_i$ $x_i, x^2_i$

x     = seq(from=0, to=10, by=.5)
x2    = x**2
y     = 3 + x - .05*x2
d.mat = data.frame(X1=x, X2=x2, Y=y)

# 2D plot
plot(x, y, pch=1, ylim=c(0,11), col="red", 
     main="Marginal projection onto the 2D X,Y plane")
lines(x, y, col="lightblue")

Bildbeschreibung hier eingeben

# 3D plot
library(scatterplot3d)
s = scatterplot3d(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, color="gray", pch=1, 
              xlab="X1", ylab="X2", zlab="Y", xlim=c(0, 11), ylim=c(0,101), 
              zlim=c(0, 11), type="h", main="In pseudo-3D space")
s$points(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, col="red", pch=1)
s$plane3d(Intercept=3, x.coef=1, y.coef=-.05, col="lightblue")

Bildbeschreibung hier eingeben

In diesen Bildern, die Screenshots einer gedrehten 3D-Figur sind, die mit denselben Daten unter Verwendung des rglPakets erstellt wurden, ist es möglicherweise einfacher, sie zu sehen .

Bildbeschreibung hier eingeben

Wenn wir sagen, dass ein Modell, das "linear in den Parametern" ist, wirklich linear ist, ist dies nicht nur eine mathematische Sophistik. Mit Variablen passen Sie eine dimensionale Hyperebene in einen dimensionalen Hyperraum an (in unserem Beispiel eine 2D-Ebene in einem 3D-Raum). Diese Hyperebene ist wirklich 'flach' / 'linear'; Es ist nicht nur eine Metapher. $p$ $p$ $p\!+\!1$

— gung - Wiedereinsetzung von Monica
quelle

17

Ein allgemeines lineares Modell ist also eine Funktion, die in den unbekannten Parametern linear ist . Eine polynomiale Regression, zum Beispiel ist quadratisch als Funktion von jedoch linear in den Koeffizienten , und . Allgemeiner kann ein allgemeines lineares Modell ausgedrückt werden als , wobei willkürliche Funktionen von vektoriellen Eingaben - siehe, dass beliebige Interaktionsterme (zwischen) enthalten kann Komponenten von ) und dergleichen. $y = a + bx + cx^2$ $x$ $a$ $b$ $c$ $y = \sum_{i=0}^N a_i h_i(x)$ $h_i$ $x$ $h_i$ $x$

— Bienenkönigin
quelle

14

Betrachten Sie ein Modell

y_{i} = b_{0} + b_{1} x_{i}^{n_{1}} + \dots + b_{p} x_{i}^{n_{p}} + ϵ_{i} .

$y_i = b_0+b_1 x^{n_1}_i + \cdots+ b_px^{n_p}_i + \epsilon_i.$

Dies kann umgeschrieben werden

y = X b + ϵ; X = (\begin{matrix} 1 & x_{1}^{n_{1}} & \dots & x_{1}^{n_{p}} \\ 1 & x_{2}^{n_{1}} & \dots & x_{2}^{n_{p}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{n}^{n_{1}} & \dots & x_{n}^{n_{p}} \end{matrix}) .

$y = X b + \epsilon;\\ X= \begin{pmatrix} 1 & x_{1}^{n_1} & \cdots & x_{1}^{n_p} \\ 1 & x_{2}^{n_1} & \cdots & x_{2}^{n_p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n}^{n_1} & \cdots & x_{n}^{n_p} \\ \end{pmatrix}.$

— mookid
quelle