Ich möchte eine unkomplizierte Antwort geben.
Was ist der Hauptunterschied zwischen der Schätzung der maximalen Wahrscheinlichkeit (MLE) und der Schätzung der kleinsten Quadrate (LSE)?
Wie @TrynnaDoStat ausführte, entspricht die Minimierung des quadratischen Fehlers in diesem Fall der Maximierung der Wahrscheinlichkeit. Wie in Wikipedia gesagt ,
Wenn in einem linearen Modell die Fehler zu einer Normalverteilung gehören, sind die Schätzer der kleinsten Quadrate auch die Schätzer der maximalen Wahrscheinlichkeit.
sie können in Ihrem Fall als gleich angesehen werden,
Lassen Sie mich das etwas genauer erläutern. Da wir wissen, dass die Antwortvariable ( )
ein normales Fehlerverteilungsmodell hat, ist
die Wahrscheinlichkeitsfunktion
Maximieren von L entspricht offensichtlich dem Minimieren von
Das ist die Methode der kleinsten Quadrate.yYi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2))
∑i=1n(Yi−λ1Xi−λ2)2
Warum können wir MLE nicht zur Vorhersage von Werten in der linearen Regression und umgekehrt verwenden? y
Wie oben erläutert, verwenden wir (genauer gesagt) die MLE zur Vorhersage von Werten. Und wenn die Antwortvariable eine willkürliche Verteilung anstelle einer normalen Verteilung aufweist, wie beispielsweise eine Bernoulli-Verteilung oder eine Verteilung aus der Exponentialfamilie, ordnen wir den linearen Prädiktor der Antwortvariablenverteilung unter Verwendung einer Verknüpfungsfunktion (gemäß der Antwortverteilung) zu, dann wird die Wahrscheinlichkeitsfunktion das Produkt aller Ergebnisse (Wahrscheinlichkeiten zwischen 0 und 1) nach der Transformation. Wir können die Verknüpfungsfunktion im linearen Regress als Identitätsfunktion behandeln (da die Antwort bereits eine Wahrscheinlichkeit ist).y