Das lineare Regressionsmodell
Y=Xβ+ϵ , wobeiϵ∼N(0,Iσ2)
Y∈Rn , undX∈Rn×pβ∈Rp
Beachten Sie, dass unser Modellfehler (Residuum) . Unser Ziel ist es, einen Vektor von s zu finden, der die Norm im Quadrat dieses Fehlers minimiert .ϵ=Y−XββL2
Kleinsten Quadrate
Gegeben Daten , wo jeder ist dimensional, suchen wir zu finden:(x1,y1),...,(xn,yn)xip
βˆLS=argminβ||ϵ||2=argminβ||Y−Xβ||2=argminβ∑i=1n(yi−xiβ)2
Maximale Wahrscheinlichkeit
Mit dem obigen Modell können wir die Wahrscheinlichkeit der Daten unter Berücksichtigung der Parameter wie folgt einstellen :β
L(Y|X,β)=∏i=1nf(yi|xi,β)
Dabei ist das PDF einer Normalverteilung mit Mittelwert 0 und Varianz . Einstecken:f(yi|xi,β)σ2
L(Y|X,β)=∏i=1n12πσ2−−−−√e−(yi−xiβ)22σ2
Im Allgemeinen ist es im Umgang mit Wahrscheinlichkeiten mathematisch einfacher, das Protokoll zu erstellen, bevor Sie fortfahren (Produkte werden zu Summen, Exponentiale verschwinden).
logL(Y|X,β)=∑i=1nlog(12πσ2−−−−√)−(yi−xiβ)22σ2
Da wir die maximale Wahrscheinlichkeitsschätzung wollen, wollen wir das Maximum der obigen Gleichung in Bezug auf . Der erste Begriff hat keinen Einfluss auf unsere Schätzung von , daher können wir ihn ignorieren:ββ
βˆMLE=argmaxβ∑i=1n−(yi−xiβ)22σ2
Beachten Sie, dass der Nenner eine Konstante in Bezug auf . Beachten Sie schließlich, dass vor der Summe ein negatives Vorzeichen steht. Das Maximum einer negativen Zahl zu finden ist also wie das Minimum ohne die negative zu finden. Mit anderen Worten:β
βˆMLE=argminβ∑i=1n(yi−xiβ)2=βˆLS
Denken Sie daran, dass wir bestimmte Modellannahmen treffen mussten (Normalität der Fehlerterme, Mittelwert 0, konstante Varianz), damit dies funktioniert. Dies entspricht unter bestimmten Bedingungen den kleinsten Quadraten, die MLE entsprechen. Weitere Diskussionen finden Sie hier und hier .
Beachten Sie der Vollständigkeit halber, dass die Lösung wie folgt geschrieben werden kann:
β=(XTX)−1XTy