Änderungen: Ich habe ein einfaches Beispiel hinzugefügt: Rückschluss auf den Mittelwert von . Ich habe auch leicht geklärt, warum die glaubwürdigen Intervalle, die nicht mit den Konfidenzintervallen übereinstimmen, schlecht sind.
Ich, ein ziemlich gläubiger Bayesianer, bin mitten in einer Art Glaubenskrise.
Mein Problem ist folgendes. Angenommen, ich möchte einige IID-Daten analysieren . Was ich tun würde, ist:
Schlagen Sie zunächst ein Bedingungsmodell vor:
Dann wähle ein Prior auf : p ( θ )
Wenden Sie schließlich die Bayes-Regel an, berechnen Sie den posterioren Wert : (oder eine Annäherung daran, falls er nicht berechenbar sein sollte) und beantworten Sie alle Fragen, die ich zuθ
Dies ist ein vernünftiger Ansatz: Wenn das wahre Modell der Daten tatsächlich "innerhalb" meiner Bedingung liegt (es entspricht einem Wert von ), kann ich die statistische Entscheidungstheorie , um zu sagen, dass meine Methode zulässig ist (siehe Roberts) "Die Bayes'sche Wahl" für Details; "Alle Statistiken" liefert auch eine klare Darstellung im entsprechenden Kapitel.θ 0
Wie jeder weiß, ist die Annahme, dass mein Modell korrekt ist, ziemlich arrogant: Warum sollte die Natur ordentlich in die Schachtel der Modelle fallen, die ich in Betracht gezogen habe? Es ist viel realistischer anzunehmen, dass sich das reale Modell der Daten von für alle Werte von . Dies wird normalerweise als "falsch spezifiziertes" Modell bezeichnet.p ( X | θ ) θ
Mein Problem ist, dass ich in diesem realistischeren, falsch spezifizierten Fall keine guten Argumente dafür habe, Bayesianisch zu sein (dh die posteriore Verteilung zu berechnen), anstatt einfach den Maximum Likelihood Estimator (MLE) zu berechnen:
In der Tat laut Kleijn, vd Vaart (2012) , in dem falsch spezifizierten Fall die hintere Verteilung:
konvergiert als zu einer Dirac-Verteilung, die auf zentriert ist& thgr; M L
hat nicht die richtige Varianz (es sei denn, zwei Werte sind zufällig gleich), um sicherzustellen, dass glaubwürdige Intervalle des posterioren Konfidenzintervalls für . (Beachten Sie, dass Konfidenzintervalle den Bayesianern offensichtlich nicht besonders wichtig sind. Dies bedeutet jedoch qualitativ, dass die posteriore Verteilung an sich falsch ist, da dies impliziert, dass die glaubwürdigen Intervalle keine korrekte Abdeckung haben.)
Daher zahlen wir eine Rechenprämie (Bayes'sche Inferenz ist im Allgemeinen teurer als MLE) für keine zusätzlichen Eigenschaften
Abschließend meine Frage: Gibt es theoretische oder empirische Argumente für die Verwendung der Bayes'schen Folgerung gegenüber der einfacheren MLE-Alternative, wenn das Modell falsch spezifiziert ist?
(Da ich weiß, dass meine Fragen oft unklar sind, lassen Sie es mich bitte wissen, wenn Sie etwas nicht verstehen: Ich werde versuchen, es anders zu formulieren.)
Bearbeiten: Betrachten wir ein einfaches Beispiel: Ableiten des Mittelwerts von unter einem Gaußschen Modell (mit bekannter Varianz , um es noch weiter zu vereinfachen). Wir betrachten einen Gaußschen Prior: Wir bezeichnen den Prior-Mittelwert, die inverse Varianz des Prior. Sei das empirische Mittel des . Schließlich sei angemerkt: . σ μ 0 β 0 ≤ X X i μ = ( β 0 μ 0 + n
Die hintere Verteilung ist:
In dem richtig spezifizierten Fall (wenn die wirklich eine Gaußsche Verteilung haben) hat dieser Posterior die folgenden schönen Eigenschaften
Wenn die aus einem hierarchischen Modell generiert werden, in dem ihr gemeinsamer Mittelwert aus der vorherigen Verteilung ausgewählt wird, haben die posterioren glaubwürdigen Intervalle eine genaue Abdeckung. Abhängig von den Daten ist die Wahrscheinlichkeit, dass sich in einem Intervall befindet, gleich der Wahrscheinlichkeit, die der Posterior diesem Intervall zuschreibt θ
Auch wenn der Prior nicht korrekt ist, haben die glaubwürdigen Intervalle eine korrekte Abdeckung in dem Bereich in dem der vorherige Einfluss auf den Posterior verschwindet
der posterior hat weiterhin gute frequentistische Eigenschaften: Jeder aus dem posterior konstruierte Bayes'sche Schätzer ist garantiert zulässig, der posteriore Mittelwert ist ein effizienter Schätzer (im Cramer-Rao-Sinne) der mittleren, glaubwürdigen Intervalle sind asymptotisch Konfidenzintervalle.
Im falsch spezifizierten Fall werden die meisten dieser Eigenschaften von der Theorie nicht garantiert. Um Ideen zu korrigieren, nehmen wir an, dass das reale Modell für das ist, dass es sich stattdessen um Student-Verteilungen handelt. Die einzige Eigenschaft, die wir garantieren können (Kleijn et al.), Ist, dass sich die posteriore Verteilung auf den realen Mittelwert des im Grenzwert . Im Allgemeinen würden alle Bedeckungseigenschaften verschwinden. Schlimmer noch, wir können im Allgemeinen garantieren, dass die Abdeckungseigenschaften innerhalb dieser Grenze von Grund auf falsch sind: Die posteriore Verteilung schreibt verschiedenen Regionen des Raums die falsche Wahrscheinlichkeit zu.X i n → ∞