Maximum-Likelihood-Methode vs. Methode der kleinsten Quadrate


42

Was ist der Hauptunterschied zwischen der Schätzung der maximalen Wahrscheinlichkeit (MLE) und der Schätzung der kleinsten Quadrate (LSE)?

Warum können wir MLE nicht zur Vorhersage von Werten in der linearen Regression und umgekehrt verwenden?y

Jede Hilfe zu diesem Thema wird sehr geschätzt.


8
Sie können MLE bei Bedarf in der linearen Regression verwenden. Dies kann sogar dann sinnvoll sein, wenn die Fehlerverteilung nicht normal ist und Sie das Ziel haben, die "wahrscheinlichste" Schätzung zu erhalten und nicht eine, die die Summe der Quadrate minimiert.
Richard Hardy

16
Unter normalen Fehlerannahmen, wie sie typischerweise in der linearen Regression angenommen werden, sind MLE und LSE gleich!
TrynnaDoStat

1
Durchsuchen Sie unsere Site nach dem Gauß-Markov-Theorem .
whuber

danke für alle antworten. Das macht jetzt Sinn. Bei der Suche nach diesem Thema im Internet bin ich auf diesen Artikel gestoßen. Vielleicht hilft das auch: radfordneal.wordpress.com/2008/08/09/…
evros

1
Eine Antwort finden Sie auch unter stats.stackexchange.com/questions/12562/… .
whuber

Antworten:


19

Ich möchte eine unkomplizierte Antwort geben.

Was ist der Hauptunterschied zwischen der Schätzung der maximalen Wahrscheinlichkeit (MLE) und der Schätzung der kleinsten Quadrate (LSE)?

Wie @TrynnaDoStat ausführte, entspricht die Minimierung des quadratischen Fehlers in diesem Fall der Maximierung der Wahrscheinlichkeit. Wie in Wikipedia gesagt ,

Wenn in einem linearen Modell die Fehler zu einer Normalverteilung gehören, sind die Schätzer der kleinsten Quadrate auch die Schätzer der maximalen Wahrscheinlichkeit.

sie können in Ihrem Fall als gleich angesehen werden,

Lassen Sie mich das etwas genauer erläutern. Da wir wissen, dass die Antwortvariable ( ) ein normales Fehlerverteilungsmodell hat, ist die Wahrscheinlichkeitsfunktion Maximieren von L entspricht offensichtlich dem Minimieren von Das ist die Methode der kleinsten Quadrate.y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

Bildbeschreibung hier eingeben
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

Warum können wir MLE nicht zur Vorhersage von Werten in der linearen Regression und umgekehrt verwenden? y

Wie oben erläutert, verwenden wir (genauer gesagt) die MLE zur Vorhersage von Werten. Und wenn die Antwortvariable eine willkürliche Verteilung anstelle einer normalen Verteilung aufweist, wie beispielsweise eine Bernoulli-Verteilung oder eine Verteilung aus der Exponentialfamilie, ordnen wir den linearen Prädiktor der Antwortvariablenverteilung unter Verwendung einer Verknüpfungsfunktion (gemäß der Antwortverteilung) zu, dann wird die Wahrscheinlichkeitsfunktion das Produkt aller Ergebnisse (Wahrscheinlichkeiten zwischen 0 und 1) nach der Transformation. Wir können die Verknüpfungsfunktion im linearen Regress als Identitätsfunktion behandeln (da die Antwort bereits eine Wahrscheinlichkeit ist).y


3
Vielleicht möchten Sie "diesen Fall" etwas klarer definieren, da die maximale Wahrscheinlichkeit und die kleinsten Quadrate im Allgemeinen nicht dasselbe sind.
Matthew Gunn

2
@MatthewGunn Ja, ich habe "Entsprechung zu" verwendet, die nicht "gleich" ist.
Lerner Zhang

Wäre großartig, wenn Sie uns ein Beispiel geben würden, in dem das lineare Modell einer nicht normalen Fehlerverteilung folgt und wie Sie in einem solchen Fall MLE verwenden, um die besten Koeffizienten zu schätzen. Wenn dies nicht möglich ist, können Sie uns zumindest auf eine korrekte Quelle verweisen, die dies mit linearen Modellen wie der Poisson-Regression
demonstriert

12

ML ist eine höhere Menge von Schätzern, die die kleinsten absoluten Abweichungen ( -Norm) und die kleinsten Quadrate ( -Norm) enthält. Unter der Haube von ML teilen die Schätzer eine Vielzahl gemeinsamer Eigenschaften wie den (leider) nicht existierenden Knickpunkt. Tatsächlich können Sie den ML-Ansatz als Ersatz verwenden, um viele Dinge, einschließlich OLS, zu optimieren, solange Sie wissen, was Sie tun.L1L2

L2 geht auf CF Gauss zurück und ist etwa 200 Jahre alt, während der moderne ML-Ansatz auf (IMHO) Huber 1964 zurückgeht. Viele Wissenschaftler sind an Norms und ihre Gleichungen gewöhnt. Die Theorie ist gut verstanden und es gibt viele veröffentlichte Artikel, die als nützliche Erweiterungen angesehen werden können:L2

  • Daten-Snooping
  • stochastische Parameter
  • schwache Zwänge

Professionelle Anwendungen passen nicht nur auf Daten, sondern prüfen:

  • wenn die Parameter signifikant sind
  • wenn Ihr Datensatz Ausreißer hat
  • welcher Ausreißer toleriert werden kann, da er die Leistung nicht beeinträchtigt
  • welche Messung sollte entfernt werden, da sie nicht zum Freiheitsgrad beiträgt

Es gibt auch eine Vielzahl von speziellen statistischen Tests für Hypothesen. Dies gilt nicht für alle ML-Schätzer oder sollte zumindest mit einem Nachweis angegeben werden.

Ein weiterer profaner Punkt ist, dass sehr einfach zu implementieren ist und auf Bayes'sche Regularisierung oder andere Algorithmen wie Levenberg-Marquard erweitert werden kann.L2

Nicht zu vergessen: Leistung. Nicht alle Kleinste-Quadrate-Fälle wie Gauß-Markov ergeben symmetrische positive definitive Normalgleichungen . Deshalb benutze ich für jede -Norm eine eigene Bibliothek . Für diesen bestimmten Fall können spezielle Optimierungen durchgeführt werden.Xβ=L+r(XTX)1L2

Fühlen Sie sich frei, um Details zu fragen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.