Was ist der Unterschied zwischen Maximum Likelihood Estimation und Gradient Descent?

Was sind die Vor- und Nachteile beider Methoden?

— GeorgeOfTheRF
quelle

Ich suche nicht nur nach Definition dieser beiden Methoden, die ich bereits aus der Google-Suche habe. Ich versuche zu verstehen, welche Methode in welchem Fall bevorzugt wird. ZB: Bei Bigdata funktioniert einer besser als der andere usw. Ich konnte kein gutes Material finden, das über die praktischen Aspekte usw. spricht

— GeorgeOfTheRF

Wie ist ein Rabe wie ein Schreibtisch?

— whuber

@ML_Pro GD hat nichts mit statistischer Modellierung zu tun, es ist ein Algorithmus. Sie könnten wahrscheinlich mit einem einführenden Statistikhandbuch beginnen, um ein besseres Verständnis der statistischen Inferenz zu erlangen, bevor Sie sich mit den Werkzeugen (wie GD) zur Lösung statistischer Probleme befassen.

— Tim

Meinten Sie den Unterschied zwischen Gradient Descent und Expectation Maximization (der normalerweise zur Lösung des Optimierungsproblems in MLE verwendet wird) fragen ?

— Sobi

Antworten:

Die Maximum-Likelihood-Schätzung ist ein allgemeiner Ansatz zur Schätzung von Parametern in statistischen Modellen durch Maximierung der Likelihood- Funktion, definiert als

L (θ | X) = f (X | θ)

$L(\theta|X) = f(X|\theta)$

das heißt, die Wahrscheinlichkeit, Daten wenn ein Wert des Parameters . Wenn Sie die Wahrscheinlichkeitsfunktion für ein gegebenes Problem kennen, können Sie nach einem solchen suchen , das die Wahrscheinlichkeit maximiert, die Daten zu erhalten, die Sie haben. Manchmal sind Schätzer bekannt, z. B. ist das arithmetische Mittel ein MLE-Schätzer für den Parameter für die Normalverteilung. In anderen Fällen können Sie jedoch auch andere Methoden verwenden , z. B. Optimierungsalgorithmen. Der ML-Ansatz sagt Ihnen nicht, wie Sie den optimalen Wert von - Sie können einfach Vermutungen anstellen und die Wahrscheinlichkeit verwenden, um zu vergleichen, welche Vermutung besser war - er sagt Ihnen nur, wie Sie vergleichen können $X$ $\theta$ $\theta$ $\mu$ $\theta$ wenn ein Wert von "wahrscheinlicher" ist als der andere. $\theta$

Gradient Descent ist ein Optimierungsalgorithmus . Sie können diesen Algorithmus verwenden, um das Minimum (oder Maximum, dann Gradientenanstieg ) vieler verschiedener Funktionen zu ermitteln. Dem Algorithmus ist es egal, welche Funktion er minimiert, er tut nur das, wonach er gefragt wurde. Mit dem Optimierungsalgorithmus muss man also irgendwie wissen, wie man erkennen kann, ob ein Wert des interessierenden Parameters "besser" ist als der andere. Sie müssen Ihrem Algorithmus einige Funktionen zum Minimieren bereitstellen, und der Algorithmus wird sich mit dem Auffinden seines Minimums befassen.

Sie können Maximum-Likelihood-Schätzungen mit verschiedenen Methoden erhalten, und die Verwendung eines Optimierungsalgorithmus ist eine davon. Andererseits kann der Gradientenabstieg auch verwendet werden, um andere Funktionen als die Wahrscheinlichkeitsfunktion zu maximieren.

— Tim
quelle

@ML_Pro Ich habe zwei Links bereitgestellt, über die Sie detaillierte Informationen finden. Ich glaube nicht, dass diese Antworten dupliziert werden müssen.

— Tim

@ML_Pro, wie ich in meiner Antwort schrieb, es sind verschiedene Dinge und man kann sie nicht vergleichen ...

— Tim

Ja, aber MLE ist ein allgemeiner Ansatz und GD ist nur ein Algorithmus, mit dem Sie eine Reihe verschiedener Funktionen minimieren können. Es ist, als hätten Sie Algebra mit Taschenrechner verglichen ...

— Tim

MLE spezifiziert die Zielfunktion (die Wahrscheinlichkeitsfunktion); GD findet die optimale Lösung für ein Problem, sobald die Zielfunktion spezifiziert ist. Sie können GD (oder andere Optimierungsalgorithmen) verwenden, um ein Maximum-Likelihood-Problem zu lösen. Das Ergebnis ist der Maximum-Likelihood-Schätzer.

— Bogenschütze

@ML_Pro Dies wird in den Links beschrieben, die ich in meiner Antwort angegeben habe. Kurzum: Ja, es ist ein Produkt von PDFs. Produkt, weil wir davon ausgehen, dass die Daten iid sind. Es wird in Form von PDFs definiert, da es sich um ein Wahrscheinlichkeitsmodell handelt.

— Tim

-3

f = l (θ)

$f = l(\theta)$

\frac{d f}{d θ} = 0

$\frac{ df }{ d\theta } = 0$

θ

$\theta$ f

Aber die Wahrscheinlichkeit einer logistischen Regression funktioniert auf diese Weise nicht als geschlossene Lösung . Wir müssen also eine andere Methode anwenden, wie z gradient descent.

— Belter
quelle

@ Tim, Sie können etwas von hier sehen, courses.cs.washington.edu/courses/cse446/13sp/slides/…

— Belter

"Die Regressionskoeffizienten werden normalerweise unter Verwendung der Maximum-Likelihood-Schätzung geschätzt" ( en.wikipedia.org/wiki/Logistic_regression )

— Tim

Die Maximum-Likelihood-Schätzung do ist eine Art Methode zur Schätzung von Regressionskoeffizienten. Wir haben jedoch mehrere Möglichkeiten, die Lösung von MLE zu finden. Die Verwendung von likelihood function+ gradient descent(um die Lösung der Wahrscheinlichkeitsfunktion zu erhalten) ist also immer noch eine Möglichkeit, MLE durchzuführen.

— Belter

Sie können diesen Satz auch

Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.

aus Machine Learning: a Probabilistic Perspective, Kevin Murphy, sehen.

— Belter

... dann ist der Wortlaut Ihrer Antwort verwirrend, da es sich so anhört, als würden Sie sagen, dass wir für die logistische Regression nicht ML verwenden, sondern GD.

— Tim