Beziehung zwischen MLE und kleinsten Quadraten bei linearer Regression

Hastie und Tibshirani erwähnen in Abschnitt 4.3.2 ihres Buches, dass in der linearen Regressionseinstellung der Ansatz der kleinsten Quadrate tatsächlich ein Sonderfall mit maximaler Wahrscheinlichkeit ist. Wie können wir dieses Ergebnis beweisen?

PS: Ersparen Sie keine mathematischen Details.

regression maximum-likelihood least-squares

— Pradnyesh Joshi
quelle

Es ist kein Sonderfall: Sie sind nur dann identisch, wenn die Fehlerverteilung normal ist.

— Zhanxiong

Das lineare Regressionsmodell

$Y = X\beta + \epsilon$ , wobei $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , und $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Beachten Sie, dass unser Modellfehler (Residuum) . Unser Ziel ist es, einen Vektor von s zu finden, der die Norm im Quadrat dieses Fehlers minimiert . ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Kleinsten Quadrate

Gegeben Daten , wo jeder ist dimensional, suchen wir zu finden: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Maximale Wahrscheinlichkeit

Mit dem obigen Modell können wir die Wahrscheinlichkeit der Daten unter Berücksichtigung der Parameter wie folgt einstellen : $\beta$

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

Dabei ist das PDF einer Normalverteilung mit Mittelwert 0 und Varianz . Einstecken: $f(y_i|x_i,\beta)$ $\sigma^2$

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Im Allgemeinen ist es im Umgang mit Wahrscheinlichkeiten mathematisch einfacher, das Protokoll zu erstellen, bevor Sie fortfahren (Produkte werden zu Summen, Exponentiale verschwinden).

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Da wir die maximale Wahrscheinlichkeitsschätzung wollen, wollen wir das Maximum der obigen Gleichung in Bezug auf . Der erste Begriff hat keinen Einfluss auf unsere Schätzung von , daher können wir ihn ignorieren: $\beta$ $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Beachten Sie, dass der Nenner eine Konstante in Bezug auf . Beachten Sie schließlich, dass vor der Summe ein negatives Vorzeichen steht. Das Maximum einer negativen Zahl zu finden ist also wie das Minimum ohne die negative zu finden. Mit anderen Worten: $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Denken Sie daran, dass wir bestimmte Modellannahmen treffen mussten (Normalität der Fehlerterme, Mittelwert 0, konstante Varianz), damit dies funktioniert. Dies entspricht unter bestimmten Bedingungen den kleinsten Quadraten, die MLE entsprechen. Weitere Diskussionen finden Sie hier und hier .

Beachten Sie der Vollständigkeit halber, dass die Lösung wie folgt geschrieben werden kann:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
quelle