In der linearen Regression hat die MLE-Lösung (Maximize Likelihood Estimation) zur Schätzung von x die folgende geschlossene Lösung (unter der Annahme, dass A eine Matrix mit vollem Spaltenrang ist):
x^lin=argminx∥Ax−b∥22=(ATA)−1ATb
Dies wird als "Finde das x , das die Zielfunktion minimiert, ∥Ax−b∥22 " gelesen . Die nette Sache über die lineare Regression Zielfunktion auf diese Weise darstellt, dass wir alles in Matrizenschreibweise halten können und für lösen x lin von Hand. Wie Alex R. erwähnt, wird ( A T A ) - 1 in der Praxis häufig nicht direkt berücksichtigt, da es rechnerisch ineffizient ist und A häufig nicht die vollständigen Rangkriterien erfüllt. Stattdessen wenden wir uns der Moore-Penrose-Pseudoinverse zux^lin(ATA)−1A. Die Details der rechnerischen Lösung für das Pseudo-Inverse können die Cholesky-Dekomposition oder die Singular-Wert-Dekomposition beinhalten.
Alternativ lautet die MLE-Lösung zur Schätzung der Koeffizienten in der logistischen Regression:
x^log=argminx∑i=1Ny(i)log(1+e−xTa(i))+(1−y(i))log(1+exTa(i))
wobei (unter der Annahme, dass jede Datenprobe zeilenweise gespeichert wird):
x ist ein Vektor, der Regressionskoeffizienten darstellt
a(i) ist ein Vektor stellt dieith sample / Zeile inDatenmatrixA
y(i) ist ein Skalar in{0,1} und dieBezeichnungith entspricht der Bezeichnungith Probe
N ist die Anzahl von Datenabtastwerten / Anzahl der Zeilen in der Datenmatrix A .
Dies wird wiederum als "Finde das x , das die Zielfunktion minimiert " gelesen .
Wenn Sie wollten, könnten Sie es einen Schritt weiter und stellen x logx^log in Matrix - Schreibweise wie folgt:
x^log=argminx⎡⎣⎢⎢1⋮1(1−y(1))⋮(1−y(N))⎤⎦⎥⎥[log(1+e−xTa(1))log(1+exTa(1))......log(1+e−xTa(N))log(1+exTa(N))]
aber du bekommst nichts davon. Die logistische Regression hat keine geschlossene Lösung und bietet nicht die gleichen Vorteile wie die lineare Regression, wenn sie in Matrixnotation dargestellt wird. Um zu lösen x log Schätzungstechniken wie Gradientenabstiegs und dem Newton-Raphson - Verfahren verwendet. Durch einige dieser Techniken (dh Newton-Raphson) x logx^logx^log approximiert wird und in Matrixschreibweise dargestellt ( siehe Link von Alex R. vorgesehen ).