Warum wird die Maximum-Likelihood-Schätzung als häufigste Technik angesehen?

Frequentistische Statistiken sind für mich gleichbedeutend mit dem Versuch, Entscheidungen zu treffen, die für alle möglichen Stichproben gut sind. Dh eine frequentistische Entscheidungsregel sollte immer versuchen, das frequentistische Risiko zu minimieren, das von einer Verlustfunktion und dem wahren Naturzustand : $\delta$ $L$ $\theta_0$

R_{f r e q} = E_{θ_{0}} (L (θ_{0}, δ (Y))

$R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y))$

Wie hängt die maximale Wahrscheinlichkeitsschätzung mit dem häufigen Risiko zusammen? Angesichts der Tatsache, dass dies die am häufigsten von Frequentisten verwendete Punktschätzungstechnik ist, muss ein Zusammenhang bestehen. Soweit ich weiß, ist die Schätzung der maximalen Wahrscheinlichkeit älter als das Konzept des frequentistischen Risikos, aber es muss dennoch ein Zusammenhang bestehen, warum sonst würden so viele Leute behaupten, dass es sich um eine frequentistische Technik handelt?

Die engste Verbindung, die ich gefunden habe, ist die

"Für parametrische Modelle, die schwache Regularitätsbedingungen erfüllen, beträgt der Maximum Likelihood Estimator ungefähr minimax", Wassermann 2006, p. 201 "

Die akzeptierte Antwort verknüpft entweder eine stärkere Schätzung des Maximum-Likelihood-Punkts mit dem häufigen Risiko oder liefert eine alternative formale Definition der häufig auftretenden Inferenz, die zeigt, dass MLE eine häufig auftretende Inferenzmethode ist.

maximum-likelihood frequentist

— Julian Karls
quelle

ML achtet überhaupt nicht auf Risiken! Das ist in der Tat ein Teil der entscheidungswissenschaftlichen Kritik an ML. Ich vermute, dass diese Frage schwierig zu beantworten ist, weil implizit "Frequentist" in zwei inkompatiblen Sinnen verwendet wird - eine ist entscheidungstheoretisch und bezieht sich auf eine Verlustfunktion, die andere bezieht sich implizit auf die Nichtannahme einer vorherigen Verteilung.

— Whuber

@whuber ML achtet auf das Risiko. Tatsächlich handelt es sich um eine Minimierung unter logarithmischem Verlust unter einer ungeeigneten Uniform vor.

— Cagdas Ozgenc

@Cagdas Ich glaube, das ist normalerweise nicht das Risiko für einen Entscheider: Es zeigt lediglich ML, als würde es das Risiko minimieren, wenn logarithmischer Verlust das Risiko wäre, das für sie wichtig wäre. Das Ansprechen auf einen "unpassenden Uniformprior" ist übrigens entschieden nicht häufig!

— Whuber

@whuber Bayesian Schätzverfahren verwenden auch akkumulierte log-Verluste. Erst danach wird das Entscheiderrisiko angewendet. Wenn es darum geht, das Risiko von Entscheidungsträgern direkt zu optimieren (nicht über ein Sprungbrett für logarithmische Verluste), sind häufigere Verfahren in dieser Hinsicht, dh OLS, bekannter.

— Cagdas Ozgenc

Antworten:

Sie wenden eine relativ enge Definition von Frequentismus und MLE an - wenn wir etwas großzügiger und definierender sind

Frequentismus: Ziel der Konsistenz, (asymptotischen) Optimalität, Unparteilichkeit und kontrollierten Fehlerraten bei wiederholter Probenahme, unabhängig von den wahren Parametern
MLE = Punktschätzung + Konfidenzintervalle (CIs)

dann scheint es ziemlich klar zu sein, dass MLE alle frequentistischen Ideale erfüllt. Insbesondere steuern CIs in MLE als p-Werte die Fehlerrate bei wiederholter Abtastung und geben nicht den 95% -Wahrscheinlichkeitsbereich für den wahren Parameterwert an, wie viele Leute denken - daher sind sie durch und durch frequentistisch.

Nicht alle diese Ideen waren bereits in Fisher's 1922 veröffentlichtem Papier "Über die mathematischen Grundlagen der theoretischen Statistik" enthalten , aber die Idee der Optimalität und Unparteilichkeit ist vorhanden, und Neyman fügte die Idee hinzu, CIs mit festen Fehlerraten zu konstruieren. Efron, 2013, "Ein 250-jähriges Argument: Glaube, Verhalten und das Problem" , fasst in seiner gut lesbaren Geschichte der Bayesian / Frequentist-Debatte zusammen:

In den frühen 1900er Jahren kam der Vielseitigkeitszug richtig in Fahrt. Ronald Fisher entwickelte die Maximum-Likelihood-Theorie für die optimale Schätzung und zeigte das bestmögliche Verhalten für eine Schätzung. Jerzy Neyman tat dasselbe für Konfidenzintervalle und Tests. Die Verfahren von Fisher und Neyman passten fast perfekt zu den wissenschaftlichen Erfordernissen und den rechnerischen Grenzen der Wissenschaft des 20. Jahrhunderts und verwandelten den Bayesianismus in ein Schattendasein.

In Bezug auf Ihre engere Definition stimme ich Ihrer Annahme, dass die Minimierung des Frequentistenrisikos (FR) das Hauptkriterium für die Entscheidung ist, ob eine Methode der Frequentistenphilosophie folgt, nicht ganz zu. Ich würde sagen, dass die Minimierung der FR eine wünschenswerte Eigenschaft ist, die aus der Philosophie des Frequentismus folgt , anstatt dieser vorauszugehen. Daher muss eine Entscheidungsregel / ein Schätzer FR nicht minimieren, um häufig zu sein, und das Minimieren von FR bedeutet auch nicht notwendigerweise, dass eine Methode häufig ist, aber ein Frequentist würde im Zweifel die Minimierung von FR vorziehen.

Wenn wir uns MLE genauer ansehen: Fisher hat gezeigt, dass MLE asymptotisch optimal ist (was im Großen und Ganzen der Minimierung von FR entspricht), und das war sicherlich ein Grund für die Förderung von MLE. Er war sich jedoch bewusst, dass die Optimalität nicht für eine endliche Stichprobengröße galt. Trotzdem war er mit diesem Schätzer aufgrund anderer wünschenswerter Eigenschaften wie Konsistenz, asymptotischer Normalität, Invarianz unter Parametertransformationen zufrieden und vergessen wir nicht: Leicht zu berechnen. Insbesondere die Invarianz wird in der Arbeit von 1922 häufig betont. Aus meiner Sicht waren die Beibehaltung der Invarianz bei der Parametertransformation und die Fähigkeit, die Priors im Allgemeinen loszuwerden, eine seiner Hauptmotive bei der Wahl von MLE. Wenn Sie seine Argumentation besser verstehen wollen, empfehle ich das Papier von 1922.

— Florian Hartig
quelle

Könnte ich Ihre Antwort zusammenfassen, da die maximale Wahrscheinlichkeitspunktschätzung am häufigsten in Verbindung mit CIs oder als Teil eines Hypothesentests (z. B. eines Wahrscheinlichkeitsrationstests) verwendet wird. Daher handelt es sich um eine häufig verwendete Technik. Wenn dies der Fall ist, denke ich, dass dies eine gültige Antwort ist, jedoch nicht die, auf die ich gehofft habe. Ich hatte ein formales Argument angestrebt, warum die Maximum-Likelihood-Schätzung als eine Methode zur häufigeren Punktschätzung angesehen werden kann. Wenn dies eine andere formale Definition der frequentistischen Inferenz erfordert, ist dies auch in Ordnung.

— Julian Karls

Ich stelle mir MLE im Allgemeinen als Framework vor, das Fisher-Punktschätzungen zusammen mit Neymans CIs enthält - so wird es in der Klasse unterrichtet, und aufgrund der obigen Argumente würde ich behaupten, dass es bis auf die Knochen frequentistisch ist. Ich frage mich, wie viel Sinn es macht, zu diskutieren, ob MLE allein ein häufig auftretender Schätzer ist, ohne den Kontext, wie und warum es verwendet wird. Wenn Sie Fischers Gründe haben wollen, empfehle ich das Papier von 1922 wirklich - ich würde sagen, die Gründe, die er angibt, sind häufig, obwohl dieses Wort damals nicht existierte. Ich habe diesbezüglich meinen Kommentar erweitert.

— Florian Hartig

Grundsätzlich aus zwei Gründen:

Die maximale Wahrscheinlichkeit ist eine punktuelle Schätzung der Modellparameter. Wir Bayesianer mögen posteriore Verteilungen.
Die maximale Wahrscheinlichkeit setzt keine vorherige Verteilung voraus . Wir Bayesianer brauchen unsere Prioritäten. Sie können informativ oder nicht informativ sein, aber sie müssen existieren

— Uri Goren
quelle

+1 Ich möchte nur darauf hinweisen, dass Sie in dieser Antwort implizit "frequentistisch" mit "nicht-bayesisch" gleichzusetzen scheinen. Die Sprache von "Wir Bayesianer" legt auch nahe, dass sich "Bayesianer" eher auf eine Art persönliches Merkmal oder Stammeszugehörigkeit bezieht - fast als ob Sie eine Art Eskimo wären - als auf eine Reihe von Techniken und Interpretationen.

— whuber

Andererseits kann MLE leicht als Bayes'sche Technik abgeleitet werden. Es ist einfach die MAP-Schätzung für jedes statistische Modell, das einen einheitlichen Prior verwendet.

— Julian Karls

MAPist auch eine punktuelle Schätzung und wird von "True Bayesians"

— Uri Goren