Unter welchen Bedingungen fallen bayesianische und frequentistische Punktschätzer zusammen?

17

Mit einem flachen Prior fallen die Schätzer ML (Frequentist - Maximum Likelihood) und MAP (Bayesian - Maximum A Posteriori) zusammen.

Im Allgemeinen spreche ich jedoch von Punktschätzern, die als Optimierer einer Verlustfunktion abgeleitet wurden. Dh

\hat{x} (.) = argmin E (L (X - \hat{x} (y)) | y) (Bayesian)

$\hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) }$

\hat{x} (.) = argmin E (L (x - \hat{x} (Y)) | x) (Frequentist)

$\hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)}$

wobei der Erwartungsoperator ist, ist der Funktionsverlust (bei Null wird die Schätzfunktion , die Daten gegeben , des Parameters und Zufallsvariablen sind mit Großbuchstaben bezeichnet. $\mathbb{E}$ $L$ $\hat x(y)$ $y$ $x$

Kennt jemand Bedingungen für , das PDF von und , die auferlegte Linearität und / oder Unparteilichkeit, wo die Schätzer zusammenfallen werden? $L$ $x$ $y$

Bearbeiten

Wie in den Kommentaren angemerkt, ist ein Erfordernis der Unparteilichkeit wie Unparteilichkeit erforderlich, um das Frequentist-Problem aussagekräftig zu machen. Flache Prioren können ebenfalls eine Gemeinsamkeit sein.

Neben den allgemeinen Diskussionen einiger Antworten geht es in der Frage auch darum, konkrete Beispiele zu liefern . Ich denke, ein wichtiger Faktor ist die lineare Regression:

die ist das blaue (Gauss-Markov Theorem), dhes minimiert die frequentistischen MSE unter linear-unvoreingenommenem Schätzer. $\mathbf{\hat{x}} = (\mathbf{D}'\mathbf{D})^{-1}\mathbf{D}'\mathbf{y}$
wenn ist und die Gaußsche vor flach ist $(X,Y)$ die ist"posterior" meanminimiert der Bayesian mittlere Verlust für jede konvexe Verlustfunktion. $\mathbf{\hat{x}} = (\mathbf{D}'\mathbf{D})^{-1}\mathbf{D}'\mathbf{y}$

Hier, scheint als Daten- / Entwurfsmatrix im frequentistischen / bayesianischen Jargon bekannt zu sein. $\mathbf{D}$

— Patrick
quelle

Ich gehe davon aus, dass die Antwort eine Wohnung voraussetzen soll? Andernfalls kann natürlich nicht davon ausgegangen werden, dass die Schätzungen in interessanten allgemeinen Fällen vernünftigerweise gleich sind.

— user56834

2

Es ist keine einfache Frage, die Sie in der Allgemeinheit beantworten können, aber es ist derzeit ein sehr aktuelles Forschungsthema, siehe zum Beispiel Judith Rousseaus Arbeit in diesem Bereich: ceremade.dauphine.fr/~rousseau/publi.html

— Jeremias K

@JeremiasK, kannst du das vielleicht in einer Antwort erklären?

— user56834

1

@ Programmer2134 Ich würde mich wohl fühlen, wenn ich mich mit dem Material wohl fühle, aber ich nicht. Ich weiß, dass sie ein bayesianisches Gegenstück zu einer CLT ableiten, mit bestimmten "posterioren Konzentrationsraten", die Ihnen sagen, wie schnell sich der Parameter posterior auf einen Punkt in Ihrem Parameterraum konzentriert, wenn Sie die Stichprobengröße erhöhen, und dann beenden Sie im Grunde Feststellen von Beständigkeitsgarantien für Ihre Bayes'schen Schätzer nach dem Typ eines Frequentisten.

— Jeremias K

7

Die Frage ist interessant, aber etwas hoffnungslos, es sei denn, der Begriff des frequentistischen Schätzers wird präzisiert. Es ist definitiv nicht der Satz in der Frage , da die Antwort auf die Minimierung ist für alle

\hat{x} (.) = argmin E (L (x, \hat{x} (Y)) | x)

$\hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x,\hat x(Y)) \; | \; x \right)$

\hat{x} (y) = x

$\hat{x}(y)=x$

y

$y$ ‚s wie erwähnt in Programmer2134 Antwort . Das grundlegende Problem besteht darin, dass es keinen einzelnen Schätzer für ein Schätzungsproblem gibt, ohne zusätzliche Einschränkungen oder Schätzerklassen einzuführen. Ohne diese sind alle Bayes-Schätzer auch Frequentist-Schätzer.

Wie in den Kommentaren hervorgehoben, Unparteilichkeit kann eine solche Einschränkung sein, in welchem Fall Bayes-Schätzer ausgeschlossen sind. Aber dieser häufig auftretende Begriff kollidiert mit anderen häufig auftretenden Begriffen wie

Zulässigkeit, da das James-Stein-Phänomen gezeigt hat, dass unverzerrte Schätzer unzulässig sein können (abhängig von der Verlustfunktion und der Dimension des Problems);
Invarianz unter Umparametrisierung, da Unparteilichkeit nicht unter Transformationen bleibt.

Plus-Unparteilichkeit gilt nur für eine eingeschränkte Klasse von Schätzproblemen. Damit meine ich, dass die Klasse der unverzerrten Schätzer eines bestimmten Parameters oder einer Transformation die meiste Zeit leer ist. $\theta$ $h(\theta)$

Apropos Zulässigkeit, eine weitere häufig anzutreffende Vorstellung, es gibt Einstellungen, für die nur Bayes-Schätzer und umgekehrt zulässig sind. Diese Art von Einstellungen bezieht sich auf die vollständigen Klassensätze, die Abraham Wald in den 1950er Jahren aufgestellt hat. (Gleiches gilt für die besten invarianten Schätzer, bei denen es sich um Bayes nach dem entsprechenden rechten Haar-Maß handelt.)

— Xi'an
quelle

1

Gibt es andere kanonische Möglichkeiten, die Klasse der Schätzer so einzuschränken, dass das Minimierungsproblem klar definiert und nicht degeneriert ist (abgesehen von der Forderung nach Unparteilichkeit), die näher an der Bayes'schen liegen?

— user56834

3

Im Allgemeinen stimmen häufig auftretende und bayesianische Schätzer nicht überein, es sei denn, Sie verwenden zuvor eine degenerierte Ebene. Der Hauptgrund ist folgender: Frequentistische Schätzer bemühen sich oft um Unparteilichkeit. Zum Beispiel versuchen Frequentisten oft, den Schätzer für die unverzerrte Mindestvarianz zu finden ( http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator ). In der Zwischenzeit sind alle nicht entarteten Bayes-Schätzer voreingenommen (im häufigeren Sinne von Voreingenommenheit). Siehe zum Beispiel http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Theorem 5.

Zusammenfassend lässt sich sagen: Die meisten populären Frequentist-Schätzer bemühen sich um Unparteilichkeit, während alle Bayes-Schätzer voreingenommen sind. Daher stimmen Bayes und häufig auftretende Schätzer selten überein.

— Stefan Wager
quelle

5

Ich wundere mich über die Richtigkeit dieser Behauptungen, da "die meisten der populären Frequentist-Schätzer" ML sind und sie dazu neigen, voreingenommen zu sein (abhängig von der Parametrisierung). Darüber hinaus ist ein guter Frequentist zutiefst besorgt über den Verlust und die Zulässigkeit. Ein wesentlicher Teil dieser Theorie erkennt an, dass zulässige Verfahren von Bayes-Verfahren stammen, von denen - zumindest in diesem weiteren Sinne - Bayes-Schätzer das Herzstück der frequentistischen Theorie bilden! Ich könnte zu Ihrem Standpunkt überredet sein, wenn Sie klarer über "oft", "am meisten" und "selten" sprechen und dies mit Beweisen belegen könnten.

— Whuber

@whuber Guter Punkt - meine Antwort war vielleicht ein bisschen simpel. Echte Frequentisten neigen dazu, voreingenommene Verfahren (z. B. bestrafte L1- oder L2-Regression) oder sogar formal bayesianische Verfahren anzuwenden. Ich denke jedoch, dass unvoreingenommene Schätzer der Ausgangspunkt für die häufigste Analyse sind. Das erste fleischige Kapitel der Punktschätzungstheorie von Lehmann & Casella (einer der Standardtexte zur frequentistischen Schätzung) handelt von Unparteilichkeit.

— Stefan Wager

5

Gut, OK (+1). Aber ich finde Ihr letztes Argument amüsant: Schließlich muss ein Buch irgendwo beginnen, und normalerweise wird dieser Ausgangspunkt wegen seiner Einfachheit und Zugänglichkeit gewählt, nicht wegen seiner praktischen Bedeutung. Aus dem gleichen Grund könnte man behaupten, dass sich die meisten modernen Mathematiker in erster Linie mit Logik und Mengenlehre befassen, da diese häufig das erste Kapitel in vielen Mathematiklehrbüchern bilden! Ein besseres Spiegelbild der statistischen Praxis könnte die letzte Hälfte von Lehmann & Casella sein - werfen Sie einen Blick auf das, was dort besprochen wird :-).

— Whuber

msgstr "es sei denn, Sie verwenden eine entartete Wohnung vor". Nun, das ist ein interessanter Sonderfall, nicht wahr?

— user56834

Seine Frage ist auch, ob sie unter bestimmten Bedingungen theoretisch zusammenfallen würden und nicht, ob die in der Praxis verwendeten Schätzer übereinstimmen.

— user56834

3

$\text{argmin}$ $\hat x(y)$ $y$

$x$ $x$ $f(x,\hat x)=E(L(x-\hat x(Y))|x)$ $x$ $x$ $f(x, \hat x)$ $\hat x$ $\hat x = x$

— user56834
quelle

1

Gute Argumente. Ich denke, Sie haben Recht mit dem Problem der Frequentisten. Die Art und Weise, es gut in Szene zu setzen, besteht darin, die Klasse der Schätzer einzuschränken. Von Lehmann & Casella: "Bisher war es uns ein Anliegen, Schätzer zu finden, die das Risiko R (θ, δ) bei jedem Wert von θ minimieren. Dies war nur möglich, indem die Klasse der Schätzer eingeschränkt wurde, die durch eine Unparteilichkeitsanforderung wie z als Unparteilichkeit oder Äquivarianz. "

— Patrick

1

Möglicherweise gibt es keine Antwort auf diese Frage.

Eine Alternative könnte darin bestehen, nach Methoden zu fragen, mit denen die beiden Schätzungen für jedes Problem effizient ermittelt werden können. Die Bayes'schen Methoden kommen diesem Ideal ziemlich nahe. Obwohl Minimax-Methoden verwendet werden könnten, um die Frequentist-Point-Schätzung zu bestimmen, bleibt die Anwendung der Minimax-Methode im Allgemeinen schwierig und wird in der Praxis tendenziell nicht angewendet.

Eine andere Alternative wäre die Umformulierung der Frage nach den Bedingungen, unter denen Bayes'sche und frequentistische Schätzer „konsistente“ Ergebnisse liefern, und der Versuch, Methoden zur effizienten Berechnung dieser Schätzer zu ermitteln. Unter "konsistent" wird verstanden, dass Bayes'sche und frequentistische Schätzer aus einer gemeinsamen Theorie abgeleitet sind und dass für beide Schätzer dasselbe Optimalitätskriterium verwendet wird. Dies unterscheidet sich stark von dem Versuch, sich der Bayes'schen und der frequentistischen Statistik zu widersetzen, und könnte die oben genannte Frage überflüssig machen. Ein möglicher Ansatz besteht darin, sowohl für den Frequentist-Fall als auch für den Bayes'schen Fall Entscheidungsmengen anzustreben, die den Verlust für eine gegebene Größe minimieren, dh wie von vorgeschlagen

Schafer, Chad M und Philip B Stark. "Erstellen von Vertrauensbereichen mit optimaler erwarteter Größe." Journal of the American Statistical Association 104.487 (2009): 1080 & ndash; 1089.

Es stellt sich heraus, dass dies sowohl für den häufig auftretenden als auch für den bayesianischen Fall möglich ist, indem Beobachtungen und Parameter mit großer punktueller gegenseitiger Information bevorzugt einbezogen werden. Die Entscheidungssätze sind nicht identisch, da die gestellte Frage unterschiedlich ist:

Begrenzen Sie unabhängig von den wahren Parametern das Risiko, falsche Entscheidungen zu treffen.
Begrenzen Sie bei bestimmten Beobachtungen das Risiko, dass falsche Parameter in die Entscheidungsmenge einbezogen werden (Bayes'sche Sichtweise).

Die Sets überlappen sich jedoch weitgehend und werden in einigen Situationen identisch, wenn flache Priors verwendet werden. Die Idee wird zusammen mit einer effizienten Implementierung in detaillierter besprochen

Bartels, Christian (2015): Generisches und konsistentes Vertrauen und glaubwürdige Regionen. figshare. https://doi.org/10.6084/m9.figshare.1528163

Bei informativen Prioren weichen die Entscheidungsmengen stärker voneinander ab (wie allgemein bekannt und in der obigen Frage und den Antworten dargelegt). Im konsequenten Rahmen erhält man jedoch frequentistische Tests, die die gewünschte frequentistische Abdeckung gewährleisten, aber Vorkenntnisse berücksichtigen.

Bartels, Christian (2017): Vorkenntnisse in frequentistischen Tests nutzen. figshare. https://doi.org/10.6084/m9.figshare.4819597

Den vorgeschlagenen Methoden fehlt es immer noch an einer effizienten Umsetzung der Marginaisierung.

— user36160
quelle

Könnten Sie Ihre Frage genauer erläutern, wann sie "konsequent" sein würde?

— user56834

@ Programmer2134. Danke, versuchte in der Antwort zu klären.

— user36160