Warum maximale Wahrscheinlichkeit und nicht erwartete Wahrscheinlichkeit?

Warum ist es so üblich, Schätzungen der maximalen Wahrscheinlichkeit von Parametern zu erhalten, aber Sie hören so gut wie nie von Schätzungen der erwarteten Wahrscheinlichkeitsparameter (dh basierend auf dem erwarteten Wert und nicht auf dem Modus einer Wahrscheinlichkeitsfunktion)? Ist dies in erster Linie aus historischen Gründen oder aus sachlicheren technischen oder theoretischen Gründen?

Gibt es signifikante Vor- und / oder Nachteile bei der Verwendung von Schätzungen der erwarteten Wahrscheinlichkeit anstelle von Schätzungen der maximalen Wahrscheinlichkeit?

Gibt es einige Bereiche , in denen erwartete Wahrscheinlichkeit Schätzungen werden routinemäßig verwendet?

— Jake Westfall
quelle

Erwarteter Wert in Bezug auf welche Wahrscheinlichkeitsverteilung? ML wird normalerweise in nicht-Bayesianischen Analysen angewendet, bei denen (a) die Daten angegeben (und festgelegt) werden und (b) die Parameter als (unbekannte) Konstanten behandelt werden: Es gibt überhaupt keine Zufallsvariablen.

— Whuber

Antworten:

Die vorgeschlagene Methode (nach Normierung der Wahrscheinlichkeit einer Dichte) entspricht der Schätzung der Parameter unter Verwendung einer flachen Priorität für alle Parameter im Modell und unter Verwendung des Mittelwerts der posterioren Verteilung als Schätzer. Es gibt Fälle, in denen Sie durch die Verwendung eines Flat-Priors in Schwierigkeiten geraten können, weil Sie am Ende keine ordnungsgemäße posteriore Verteilung haben. Daher weiß ich nicht, wie Sie diese Situation hier korrigieren können.

In einem häufig auftretenden Kontext zu bleiben, macht die Methode jedoch wenig Sinn, da die Wahrscheinlichkeit in den meisten Kontexten keine Wahrscheinlichkeitsdichte darstellt und es nichts Zufälliges mehr gibt, sodass es wenig Sinn macht, eine Erwartung zu treffen. Jetzt können wir dies einfach als eine Operation formalisieren, die wir auf die Wahrscheinlichkeit anwenden, dass nachträglich eine Schätzung erstellt wird. Ich bin mir jedoch nicht sicher, wie die frequentistischen Eigenschaften dieses Schätzers aussehen würden (in den Fällen, in denen die Schätzung tatsächlich vorliegt).

Vorteile:

Dies kann in einigen Fällen eine Schätzung liefern, in denen die MLE tatsächlich nicht vorhanden ist.
Wenn Sie nicht hartnäckig sind, kann dies Sie in eine bayesianische Umgebung versetzen (und dies wäre wahrscheinlich der natürliche Weg, um auf diese Art von Schätzung zu schließen). Ok, je nach eurer Meinung ist das vielleicht kein Vorteil - aber es ist für mich.

Nachteile:

Dies ist auch nicht garantiert.
Wenn wir keinen konvexen Parameterraum haben, ist die Schätzung möglicherweise kein gültiger Wert für den Parameter.
Der Prozess ist für die Neuparametrisierung nicht invariant. Da der Vorgang dem Setzen einer Flatrate vor Ihren Parametern entspricht, macht es einen Unterschied, um welche Parameter es sich handelt (sprechen wir von der Verwendung von als Parameter oder verwenden wir ). $\sigma$ $\sigma^2$

— Dason
quelle

+1 Ein großes Problem bei der Annahme einer gleichmäßigen Verteilung der Parameter besteht darin, dass ML-Probleme häufig umformuliert werden, indem die Invarianz ihrer Lösungen für die Neuparametrisierung ausgenutzt wird. Dies würde jedoch die vorherige Verteilung der Parameter ändern. Eine "Erwartung" so zu nehmen, als ob die Parameter eine gleichmäßige Verteilung hätten, ist ein willkürliches Artefakt und kann zu falschen und bedeutungslosen Ergebnissen führen.

— Whuber

Guter Punkt! Ich wollte das auch erwähnen, habe aber vergessen, es aufzurufen, während ich den Rest tippte.

— Dason

Um es festzuhalten, die maximale Wahrscheinlichkeit ist auch für die Reparametrisierung nicht gleichbedeutend.

— Neil G

@NeilG Ja ist es? Vielleicht beziehen wir uns aber auch auf andere Ideen. Was meinst du, wenn du das sagst?

— Dason

p \in [0, 1]

$p \in [0,1]$

α = β = 2

$\alpha=\beta=2$

o \in [0, \infty)

$o \in [0, \infty)$

α = β = 2

$\alpha=\beta=2$

\frac{1}{2}

$\frac12$

\frac{1}{3}

$\frac13$

\frac{1}{4}

$\frac14$

Ein Grund dafür ist, dass die Schätzung der maximalen Wahrscheinlichkeit einfacher ist: Sie setzen die Ableitung der Wahrscheinlichkeit für die Parameter auf Null und lösen nach den Parametern auf. Eine Erwartung zu nehmen bedeutet, die Wahrscheinlichkeit mal jeden Parameter zu integrieren.

$\{x_i\}$ $\mu=E(x)$ $\chi=E(x^2)$

In einigen Fällen stimmt der Parameter für die maximale Wahrscheinlichkeit mit dem Parameter für die erwartete Wahrscheinlichkeit überein. Beispielsweise ist das erwartete Wahrscheinlichkeitsmittel der obigen Normalverteilung das gleiche wie das maximale Wahrscheinlichkeitsmittel, da das Prioritätsmaß des Mittels normal ist und die Art und das Mittel einer Normalverteilung zusammenfallen. Dies gilt natürlich nicht für den anderen Parameter (wie auch immer Sie ihn parametrisieren).

Ich denke, der wichtigste Grund ist wahrscheinlich, warum Sie eine Erwartung der Parameter wünschen? Normalerweise lernen Sie ein Modell und die Parameterwerte sind alles, was Sie wollen. Wenn Sie einen einzelnen Wert zurückgeben, ist die maximale Wahrscheinlichkeit dann nicht die beste, die Sie zurückgeben können?

— Neil G
quelle

In Bezug auf Ihre letzte Zeile: Vielleicht - vielleicht nicht. Es hängt von Ihrer Verlustfunktion ab. Ich habe gerade mit Jakes Idee gespielt und es scheint für den Fall mit X ~ Unif (0, Theta), dass max (X) * (n-1) / (n-2), was Jakes Methode angibt, eine bessere hat MSE als max (X), die die MLE ist (zumindest Simulationen implizieren dies, wenn n> = 5 ist). Offensichtlich ist das Unif (0, Theta) -Beispiel nicht typisch, aber es zeigt, dass es andere plausible Methoden gibt, um Schätzer zu erhalten.

— Dason

@Dason One - Standard (und leistungsstark) frequentistischen Technik für eine gute zu finden ( dh Schätzer zulässig) ist Bayes Schätzer für verschiedene priors zu berechnen. (Siehe z. B. Lehmanns Buch zur Punktschätzung.) Sie haben soeben einen solchen Schätzer wiederentdeckt.

— Whuber

Danke für deine Antwort Neil! Sie sagen, dass das Erhalten der Parameterschätzungen durch Differenzierung im Vergleich zur Integration einfacher ist, und ich kann mit Sicherheit sehen, wie dies für einfache Probleme (z. B. Stift-Papier-Niveau oder nicht zu weit darüber hinaus) zutreffen würde. Wäre es für viel kompliziertere Probleme, bei denen wir uns auf numerische Methoden verlassen müssen, nicht einfacher, die Integration zu verwenden? In der Praxis kann das Auffinden des MLE ein ziemlich schwieriges Optimierungsproblem darstellen. Könnte eine numerische Approximation des Integrals nicht tatsächlich rechnerisch einfacher sein? Oder ist das in den meisten Fällen unwahrscheinlich?

— Jake Westfall

@JakeWestfall: Wie werden Sie mit numerischen Methoden eine Erwartung über den Parameterraum stellen? In einem komplizierten Modellraum mit einem riesigen Parameterraum können Sie nicht die Wahrscheinlichkeit jedes Modells (Parametereinstellung) über das Ganze integrieren. Normalerweise führen Sie EM aus, für die die Parameterschätzung im M-Schritt erfolgt, sodass jeder Parameter, wie Sie sagen, eines der "einfachen Probleme" ist und für die Maximalwahrscheinlichkeitsparameter direkte Erwartungen an ausreichende Statistiken sind.

— Neil G

@NeilG Nun, Dason weist darauf hin, dass die Methode, die ich diskutiere, (nach der Normalisierung) der Bayes'schen Schätzung mit einem flachen Vorgänger entspricht und dann den hinteren Mittelwert als Schätzung verwendet. Also als Antwort auf "Wie werden Sie mit numerischen Methoden eine Erwartung über den Parameterraum stellen?" Ich glaube, ich dachte, wir könnten eine dieser Methoden anwenden : bayesian-inference.com/numericalapproximation. Irgendwelche Gedanken dazu?

— Jake Westfall

Dieser Ansatz existiert und wird als Minimum Contrast Estimator bezeichnet. Das Beispiel eines verwandten Papiers (und weitere Referenzen von innen) https://arxiv.org/abs/0901.0655

— Danila Doroshin
quelle