Gibt es Beispiele, bei denen glaubwürdige Intervalle nach Bayes offenbar häufigen Konfidenzintervallen unterlegen sind?

81

Eine kürzlich gestellte Frage zum Unterschied zwischen Vertrauen und glaubwürdigen Intervallen veranlasste mich, den Artikel von Edwin Jaynes zu diesem Thema erneut zu lesen:

Jaynes, ET, 1976. "Confidence Intervals vs Bayesian Intervals", in Grundlagen der Wahrscheinlichkeitstheorie, statistischen Inferenz und statistischen Theorien der Wissenschaft, WL Harper und CA Hooker (Hrsg.), D. Reidel, Dordrecht, p. 175; ( pdf )

In der Zusammenfassung schreibt Jaynes:

... zeigen wir die Bayes'schen und orthodoxen Lösungen für sechs häufige statistische Probleme mit Konfidenzintervallen (einschließlich Signifikanztests auf der Grundlage derselben Überlegungen). In jedem Fall ist die Situation genau umgekehrt, dh die Bayes'sche Methode ist einfacher anzuwenden und liefert dieselben oder bessere Ergebnisse. Tatsächlich sind die orthodoxen Ergebnisse nur dann zufriedenstellend, wenn sie mit den Bayes'schen Ergebnissen eng (oder genau) übereinstimmen. Es wurde noch kein gegenteiliges Beispiel erstellt.

(Hervorhebung von mir)

Die Zeitung wurde 1976 veröffentlicht, also haben sich die Dinge vielleicht weiterentwickelt. Meine Frage ist, ob es Beispiele gibt, bei denen das Intervall der Frequentisten dem Intervall der Bayesianischen Glaubwürdigkeit deutlich überlegen ist (gemäß der von Jaynes implizit gemachten Herausforderung).

Beispiele, die auf falschen Vorannahmen beruhen, sind nicht akzeptabel, da sie nichts über die interne Konsistenz der verschiedenen Ansätze aussagen.

bayesian confidence-interval

— Dikran Beuteltier
quelle

21

Unter eher milden Annahmen sind (a) Bayesianische Schätzverfahren zulässig und (b) alle oder fast alle zulässigen Schätzer sind in Bezug auf einige frühere Schätzungen Bayesianisch. Daher ist es nicht verwunderlich, dass ein Bayes-Konfidenzintervall "die gleichen oder bessere Ergebnisse liefert". Beachten Sie, dass meine Aussagen (a) und (b) Teil der frequentistischen Analyse der rationalen Entscheidungstheorie sind. Wenn sich Stammgäste von Bayesianern trennen, geht es nicht um die Mathematik oder gar die statistischen Verfahren, sondern um die Bedeutung, Rechtfertigung und korrekte Verwendung eines Priores für ein bestimmtes Problem.

— Whuber

1

Bedeutet der obige Kommentar also, dass die Antwort auf die Frage des OP lautet: "Solche Beispiele können nicht konstruiert werden." Oder gibt es vielleicht ein pathologisches Beispiel, das die Annahmen hinter der Zulässigkeit verletzt?

1

@Srikant: Gute Frage. Ich denke, der Ort, an dem mit der Untersuchung begonnen werden muss, ist eine Situation, in der es nicht-Bayes-zulässige Schätzer gibt - nicht unbedingt einen "pathologischen", aber zumindest einen, der die Gelegenheit bietet, ein "gegenteiliges Beispiel" zu finden.

— Whuber

2

Ich würde den "falschen Vorannahmen ..." etwas Klarheit verleihen, indem ich erkläre, dass die Bayes'sche Antwort und die Frequentist-Antwort dieselben Informationen verwenden müssen , ansonsten vergleichen Sie nur die Antworten auf zwei verschiedene Fragen. Tolle Frage (+1 von mir)

— Wahrscheinlichkeit

3

Pathologie oder nicht, es wäre wahrscheinlich das erste seiner Art. Ich bin sehr gespannt auf dieses Beispiel, denn diese "Pathologien" haben normalerweise ein gutes Lernelement

— Wahrscheinlichkeitslogik

52

Ich habe vorhin gesagt, dass ich versuchen würde, die Frage zu beantworten.

Jaynes war in seiner Arbeit ein wenig ungezogen, da ein Intervall für das Vertrauen der Frequentisten nicht als ein Intervall definiert ist, in dem der wahre Wert der Statistik mit hoher (angegebener) Wahrscheinlichkeit zu erwarten ist entstehen, wenn sie als solche interpretiert werden. Das Problem ist, dass in der Praxis häufig Konfidenzintervalle verwendet werden, da ein Intervall, das mit hoher Wahrscheinlichkeit den wahren Wert enthält (vorausgesetzt, was wir aus unserer Datenstichprobe ableiten können), das ist, was wir oft wollen.

Das Schlüsselproblem für mich ist, dass es am besten ist, eine direkte Antwort auf diese Frage zu haben, wenn eine Frage gestellt wird. Ob bayesianische glaubwürdige Intervalle schlechter sind als häufig auftretende Konfidenzintervalle, hängt davon ab, welche Frage tatsächlich gestellt wurde. Wenn die gestellte Frage lautete:

(a) "Geben Sie mir ein Intervall, in dem der wahre Wert der Statistik mit der Wahrscheinlichkeit p liegt", dann scheint es, dass ein Frequentist diese Frage nicht direkt beantworten kann (und dies führt die Art von Problemen ein, die Jaynes in seiner Arbeit bespricht), aber a Bayes'sche Dose, weshalb ein Bayes'sches glaubwürdiges Intervall in den von Jaynes angegebenen Beispielen dem Intervall des frequentistischen Vertrauens überlegen ist. Aber das ist nur, weil es die "falsche Frage" für den Frequentisten ist.

(b) "Geben Sie mir ein Intervall, in dem der wahre Wert der Statistik bei häufiger Wiederholung des Experiments innerhalb von p * 100% dieser Intervalle liegt." Dann ist die häufigste Antwort genau das, was Sie wollen. Der Bayesianer ist möglicherweise auch in der Lage, eine direkte Antwort auf diese Frage zu geben (obwohl dies möglicherweise nicht einfach das offensichtliche glaubwürdige Intervall ist). Whubers Kommentar zu dieser Frage legt nahe, dass dies der Fall ist.

Im Wesentlichen geht es also darum, die Frage richtig zu spezifizieren und die Antwort richtig zu interpretieren. Wenn Sie Frage (a) stellen möchten, verwenden Sie ein Bayes'sches glaubwürdiges Intervall. Wenn Sie Frage (b) stellen möchten, verwenden Sie ein frequentistisches Konfidenzintervall.

— Dikran Beuteltier
quelle

2

Gut gesagt, vor allem darüber, welche Frage ein CI tatsächlich beantwortet. In dem Artikel von Jaynes erwähnt er jedoch, dass CIs (und die am häufigsten verwendeten Verfahren) so ausgelegt sind, dass sie auf lange Sicht gut funktionieren (z. B. wie oft sehen Sie

oder "für große n" ist die Verteilung ungefähr. .. "Annahmen in frequentistischen Methoden?), aber es gibt viele solche Verfahren, die dies tun können. Ich denke, hier können häufig verwendete Techniken (Konsistenz, Voreingenommenheit, Konvergenz usw.) verwendet werden, um verschiedene Bayes'sche Verfahren zu bewerten, zwischen denen man sich nur schwer entscheiden kann.

n \to \infty

$n \rightarrow \infty$

— Wahrscheinlichkeitsrechnung

1

"Jaynes war ein bisschen ungezogen in seiner Zeitung ..." Ich denke, der Punkt, den Jaynes anstrebte (oder den ich daraus ableitete), ist, dass Konfidenzintervalle verwendet werden, um Frage a) in einer großen Anzahl zu beantworten Fälle (Ich würde spekulieren, dass jeder, der nur Frequentistentraining hat , CIs zur Beantwortung von Frage a verwenden wird) und sie denken, dass sie eine angemessene Frequenzantwort sind)

— Wahrscheinlichkeitsanalyse

2

ja, mit "ein bisschen frech" meinte ich nur, dass Jaynes den Punkt auf eine ziemlich scherzhafte, konfrontative (aber auch unterhaltsame) Weise darlegte (oder zumindest so las ich es). Aber wenn er es nicht getan hätte, hätte es wahrscheinlich keine Auswirkungen gehabt.

— Dikran Marsupial

23

Dies ist ein "konkretes" Beispiel, das in einem Buch von Larry Wasserman Alle Statistiken zu Seite 216 ( 12.8 Stärken und Schwächen der Bayes'schen Folgerung ) enthalten ist. Grundsätzlich gebe ich in seinem Buch, was Wasserman nicht tut, 1) eine Erklärung für das, was tatsächlich passiert, anstatt eine Zeile wegzuwerfen; 2) die häufigste Antwort auf die Frage, die Wasserman günstigerweise nicht gibt; und 3) eine Demonstration, dass das äquivalente Vertrauen, das unter Verwendung der gleichen Information berechnet wurde , unter dem gleichen Problem leidet.

In diesem Beispiel gibt er die folgende Situation an

Eine Beobachtung X mit einer Stichprobenverteilung: $(X|\theta)\sim N(\theta,1)$
Vorherige Verteilung von (er verwendet tatsächlich ein allgemeines für die Varianz, aber sein Diagramm ist auf ) $(\theta)\sim N(0,1)$ $\tau^2$ $\tau^2=1$

Dann zeigt er, dass die Verwendung eines Bayesian 95% glaubwürdigen Intervalls in dieser Anordnung schließlich eine 0% -ige Frequenzdeckung hat, wenn der wahre Wert von willkürlich groß wird. Zum Beispiel liefert er ein Diagramm der Bedeckung (p218) und prüft mit dem Auge, ob der wahre Wert von 3 ist und die Bedeckung ungefähr 35% beträgt. Dann sagt er weiter: $\theta$ $\theta$

... Was sollen wir daraus schließen? Das Wichtigste ist zu verstehen, dass frequentistische und bayesianische Methoden unterschiedliche Fragen beantworten. Verwenden Sie die bayesianische Folgerung, um frühere Überzeugungen auf prinzipielle Weise mit Daten zu kombinieren. Verwenden Sie häufig verwendete Methoden, um Verfahren mit garantierter Langzeitleistung zu erstellen , wie z. B. Konfidenzintervalle ... (S217)

Und dann geht es weiter, ohne dass man sich darüber klar wird, warum die Bayes'sche Methode anscheinend so schlecht abschneidet . Darüber hinaus gibt er keine Antwort von der frequentistischen Herangehensweise, sondern nur eine umfassende Aussage über "das Langfristige" - eine klassische politische Taktik (betonen Sie Ihre Stärke + die Schwäche anderer, aber vergleichen Sie niemals Gleiches für Gleiches).

Ich werde zeigen , wie das Problem wie angegeben kann in frequentistischen / orthodox formuliert werden und zeigt dann , dass das Ergebnis mit Konfidenzintervall gibt genau die gleiche Antwort wie den Bayes ein . Daher wird ein (realer oder wahrgenommener) Fehler im Bayes'schen nicht mit Hilfe von Konfidenzintervallen korrigiert. $\tau=1$

Okay, so geht es weiter. Die erste Frage, die ich stelle, ist, welcher Wissensstand durch das vorherige . Wenn man über ; "unwissend" war , dann ist der geeignete Weg, dies auszudrücken, . Nehmen wir nun an , dass wir waren unwissend, und wir beobachteten , unabhängig von . Was wäre unser posterior für ? $\theta\sim N(0,1)$ $\theta$ $p(\theta)\propto 1$ $Y\sim N(\theta,1)$ $X$ $\theta$

p (θ | Y.) \propto p (θ) p (Y. | θ) \propto e X p (- \frac{1}{2} (Y. - θ)^{2})

$p(\theta|Y)\propto p(\theta)p(Y|\theta)\propto exp\Big(-\frac{1}{2}(Y-\theta)^2\Big)$

Also . Dies bedeutet, dass die im Beispiel von Wassermans angegebene vorherige Verteilung der Beobachtung einer iid-Kopie von gleich . Frequentistischen Methoden können nicht mit einem vorherigen behandeln, aber es kann man sich als 2 Beobachtungen aus der Stichprobenverteilung gemacht zu haben, eines gleich und eine gleich . Beide Probleme sind völlig gleichwertig, und wir können tatsächlich die häufigste Antwort auf die Frage geben. $(\theta|Y)\sim N(Y,1)$ $X$ $0$ $0$ $X$

Da es sich um eine Normalverteilung mit bekannter Varianz handelt, ist der Mittelwert eine ausreichende Statistik, um ein Konfidenzintervall für zu konstruieren . Der Mittelwert ist gleich $\theta$ und hat eine Stichprobenverteilung $\overline{x}=\frac{0+X}{2}=\frac{X}{2}$

(\bar{x} | θ) \sim N (θ, \frac{1}{2})

$(\overline{x}|\theta)\sim N(\theta,\frac{1}{2})$

Somit ist ein CI gegeben durch: $(1-\alpha)\text{%}$

\frac{1}{2} X \pm Z_{α / 2} \frac{1}{\sqrt{2}}

$\frac{1}{2}X\pm Z_{\alpha/2}\frac{1}{\sqrt{2}}$

Unter Verwendung der Ergebnisse von Beispiel 12.8 für Wasserman zeigt er jedoch, dass das posteriore glaubwürdige Intervall für gegeben ist durch: $(1-\alpha)\text{%}$ $\theta$

.

c X \pm \sqrt{c} Z_{α / 2}

$cX\pm \sqrt{c}Z_{\alpha/2}$

Wobei . Das Einstecken des Wertes beiergibt also $c=\frac{\tau^{2}}{1+\tau^{2}}$ $\tau^{2}=1$ und das glaubwürdige Intervall wird: $c=\frac{1}{2}$

\frac{1}{2} X \pm Z_{α / 2} \frac{1}{\sqrt{2}}

$\frac{1}{2}X\pm Z_{\alpha/2}\frac{1}{\sqrt{2}}$

Welche sind genau das gleiche wie das Konfidenzintervall! Ein nach der Bayes'schen Methode aufgetretener Fehler in der Abdeckung wird also nicht mit dem Intervall des frequentistischen Vertrauens korrigiert! [Wenn der Frequentist den Prior ignoriert, sollte der Bayesianer auch diesen Prior ignorieren und die Ignoranz vor , um einen fairen Vergleich zu ermöglichen , und die beiden Intervalle sind immer noch gleich - beide ]. $p(\theta)\propto 1$ $X \pm Z_{\alpha/2})$

Also, was zum Teufel ist hier los? Das Problem ist im Grunde eine Nicht-Robustheit der normalen Stichprobenverteilung. weil das Problem äquivalent ist, eine iid-Kopie bereits beobachtet zu haben, ist . Wenn Sie beobachtet haben , ist dies äußerst unwahrscheinlich , wenn der wahre Wert (Wahrscheinlichkeit, dass wenn 0,000032 ist). Dies erklärt, warum die Abdeckung für große "wahre Werte" so schlecht ist, weil sie die implizite Beobachtung, die im Prior enthalten ist, effektiv zu einem Ausreißer macht $X=0$ $0$ $\theta=4$ $X\leq 0$ $\theta=4$ . Tatsächlich können Sie zeigen, dass dieses Beispiel im Grunde genommen dem Nachweis entspricht, dass das arithmetische Mittel eine unbegrenzte Einflussfunktion hat.

Verallgemeinerung. Nun mögen einige Leute sagen "aber Sie haben nur , was ein Sonderfall sein kann". Dies ist nicht wahr: jeder Wert von $\tau=1$ kann so interpretiert werden, dass zusätzlich zumder Frageiid Kopien vondie alle gleichwaren. Das Konfidenzintervall hat die gleichen "schlechten" Abdeckungseigenschaften für großes. Dies wird jedoch zunehmend unwahrscheinlicher, wenn Sie die Werteeinhalten(und keine vernünftige Person würde sich weiterhin Sorgen um großewenn Sie weiterhin). $\tau^2=\frac{1}{N}$ $(N=0,1,2,3,\dots)$ $N$ $X$ $0$ $X$ $\theta$ $0$ $\theta$ $0$

— Wahrscheinlichkeitslogik
quelle

1

Danke für die Analyse. AFAICS Dies ist nur ein Beispiel für ein Problem, das durch eine falsche (informative) vorherige Annahme verursacht wurde und nichts über die interne Konsistenz des Bayes'schen Ansatzes aussagt.

— Dikran Beuteltier

1

Nein, der Prior muss nicht unbedingt falsch sein, es sei denn, man hat vor Durchführung des Experiments den Wert

nicht eingehalten (oder entsprechende Kenntnisse erworben). Dies bedeutet im Grunde genommen, dass, wenn das wahre

willkürlich groß wird, die Wahrscheinlichkeit, diese impliziten Beobachtungen zu beobachten, willkürlich klein wird (wie das Erhalten einer "unglücklichen Stichprobe").

0

$0$

θ

$\theta$

— Wahrscheinlichkeitsrechnung

Sie können feststellen, dass die Stichprobe aus einer Beobachtung bei

und einer weiteren bei

.

ist fest (weil es beobachtet wurde), aber

wird in den meisten Fällen "nahe" bei

thgr; sein. Wenn

thgr; groß wird, entfernt sich der Abtastmittelwert immer weiter von

und

, und da die Varianz festgelegt ist, ist die Breite des CI festgelegt, so dass er schließlich weder

noch

und daher auch nicht ist nahe einem der beiden wahrscheinlichen Werte von

(für einen von ihnen ist es ein Ausreißer, wenn sie weit auseinander liegen, für festes

)

0

$0$

X

$X$

0

$0$

X

$X$

θ

$\theta$

θ

$\theta$

X

$X$

0

$0$

X

$X$

0

$0$

θ

$\theta$

θ

$\theta$

— Wahrscheinlichkeitsrechnung

10

Keith Winstein,

EDIT: Zur Verdeutlichung beschreibt diese Antwort das Beispiel in Keith Winsteins Antwort auf den König mit dem grausamen Statistikspiel. Die Bayes'schen und die Frequent'schen Antworten verwenden beide die gleichen Informationen, dh, die Informationen über die Anzahl der fairen und unfairen Münzen werden bei der Erstellung der Intervalle ignoriert. Wenn diese Informationen nicht ignoriert werden, sollte der Frequentist die integrierte Beta-Binomial-Wahrscheinlichkeit als Stichprobenverteilung für die Erstellung des Konfidenzintervalls verwenden. In diesem Fall ist das Clopper-Pearson-Konfidenzintervall nicht angemessen und muss geändert werden. Eine ähnliche Anpassung sollte in der Bayes'schen Lösung erfolgen.

EDIT: Ich habe auch die erstmalige Verwendung des Cloppers Pearson Interval geklärt.

EDIT: leider ist mein alpha falsch herum und mein clopper pearson intervall ist falsch. Ich entschuldige mich in aller Bescheidenheit bei @whuber, der richtig darauf hingewiesen hat, mit dem ich jedoch anfänglich nicht einverstanden war und den ich ignorierte.

Das CI mit der Clopper Pearson-Methode ist sehr gut

Wenn Sie nur eine Beobachtung erhalten, kann das Clopper Pearson-Intervall analytisch ausgewertet werden. Angenommen, die Münze wird als "Erfolg" (Köpfe) angezeigt, und Sie müssen so wählen , dass $\theta$

[P r (B i (1, θ) \geq X) \geq \frac{α}{2}] \cap [P r (B i (1, θ) \leq X) \geq \frac{α}{2}]

$[Pr(Bi(1,\theta)\geq X)\geq\frac{\alpha}{2}] \cap [Pr(Bi(1,\theta)\leq X)\geq\frac{\alpha}{2}]$

Wenn diese Wahrscheinlichkeiten und , so impliziert der Clopper Pearson CI, dass $X=1$ $Pr(Bi(1,\theta)\geq 1)=\theta$ $Pr(Bi(1,\theta)\leq 1)=1$ (und die trivial immer wahr $\theta\geq\frac{\alpha}{2}$ ) wenn. Wenndiese Wahrscheinlichkeitenund, so impliziert der Clopper Pearson CI, dass $1\geq\frac{\alpha}{2}$ $X=1$ $X=0$ $Pr(Bi(1,\theta)\geq 0)=1$ $Pr(Bi(1,\theta)\leq 0)=1-\theta$ oder $1-\theta \geq\frac{\alpha}{2}$ wenn. Für einen 95% -KI erhalten wir alsowenn, undwenn. $\theta\leq 1-\frac{\alpha}{2}$ $X=0$ $[0.025,1]$ $X=1$ $[0,0.975]$ $X=0$

Daher wird jemand , der das Clopper Pearson-Konfidenzintervall verwendet, niemals enthauptet. Bei Einhaltung des Intervalls handelt es sich im Wesentlichen um den gesamten Parameterraum. Aber das CP-Intervall tut dies, indem es ein vermeintliches 95% -Intervall zu 100% abdeckt! Grundsätzlich "betrügt" der Frequentist, indem er ein 95% iges Konfidenzintervall überdeckt, das über das er / sie hinausgeht (obwohl wer in einer solchen Situation nicht betrügt? Wenn ich es wäre, würde ich das ganze [0, 1] Intervall). Wenn der König nach einem genauen 95% -KI fragen würde, würde diese Methode der Frequentisten ungeachtet dessen, was tatsächlich passiert ist, scheitern (vielleicht gibt es eine bessere?).

Was ist mit dem Bayes'schen Intervall? (insbesondere das Bayes'sche Intervall der höchsten posterioren Desnität (HPD))

Da wir a priori wissen, dass sowohl Kopf als auch Zahl auftreten können, ist der einheitliche Prior eine vernünftige Wahl. Daraus ergibt sich eine posteriore Verteilung von . Jetzt müssen wir nur noch ein Intervall mit 95% posteriorer Wahrscheinlichkeit erstellen. Ähnlich wie beim Clopper Pearson CI ist auch hier die kumulative Beta-Verteilung analytisch, so dass $(\theta|X)\sim Beta(1+X,2-X)$ und Setzen dieser Werte auf 0,95 ergibt $Pr(\theta \geq \theta^{e} | x=1) = 1-(\theta^{e})^{2}$ $Pr(\theta \leq \theta^{e} | x=0) = 1-(1-\theta^{e})^{2}$ wennund $\theta^{e}=\sqrt{0.05}\approx 0.224$ $X=1$ wenn. Die beiden glaubwürdigen Intervalle sind alsobeiundbei $\theta^{e}= 1-\sqrt{0.05}\approx 0.776$ $X=0$ $(0,0.776)$ $X=0$ $(0.224,1)$ $X=1$

Somit wird der Bayesianer für sein HPD-glaubwürdiges Intervall enthauptet, wenn er die schlechte Münze erhält und die schlechte Münze einen Endpunkt erreicht, der mit einer Chance von auftritt. $\frac{1}{10^{12}+1}\times\frac{1}{10}\approx 0$

Erstens ist das Bayes'sche Intervall kleiner als das Konfidenzintervall. Eine andere Sache ist, dass der Bayesianer zu 95% näher an der tatsächlich angegebenen Abdeckung wäre als der Frequentist. Tatsächlich ist der Bayesianer der Abdeckung von 95% so nahe, wie es bei diesem Problem möglich ist. Und im Gegensatz zu Keith 'Aussage verlieren 10 von 100 Bayesianern im Durchschnitt ihren Kopf, wenn die schlechte Münze ausgewählt wird (nicht alle, weil die schlechte Münze in dem Intervall, in dem sie nicht enthält, einen Kopf haben muss ). $0.1$

$0.025$ $0.975$

Um ein echtes 95% -Konfidenzintervall anzugeben, sollten per Definition einige Fälle (dh mindestens einer) des beobachteten Intervalls vorliegen , die nicht den wahren Wert des Parameters enthalten . Wie kann man sonst das 95% -Tag rechtfertigen? Wäre es nicht nur gültig oder ungültig, ein 90% -, 50% -, 20% - oder gar 0% -Intervall zu nennen?

Ich verstehe nicht, wie einfach die Angabe "es bedeutet 95% oder mehr" ohne eine ergänzende Einschränkung zufriedenstellend ist. Dies liegt daran, dass die offensichtliche mathematische Lösung der gesamte Parameterraum ist und das Problem trivial ist. Angenommen, ich möchte einen CI von 50%? Wenn nur die falsch-negativen Werte begrenzt werden, ist der gesamte Parameterraum ein gültiges CI, das nur diese Kriterien verwendet.

$\text{100%}$ $X=0$ $100\times\frac{10^{12}+\frac{9}{10}}{10^{12}+1}\text{%} > \text{95%}$ $X=1$

Abschließend erscheint es etwas seltsam, nach einem Unsicherheitsintervall zu fragen und dieses Intervall dann unter Verwendung des wahren Wertes zu bewerten, über den wir unsicher waren. Ein "gerechterer" Vergleich, sowohl für vertrauenswürdige als auch für glaubwürdige Intervalle, scheint mir die Wahrheit der mit dem Intervall gegebenen Aussage der Unsicherheit zu sein .

— Wahrscheinlichkeitslogik
quelle

α

$\alpha$

1 - α

$1-\alpha$

10^{12}

$10^{12}$

α

$\alpha$

1 - α

$1-\alpha$

10^{12}

$10^{12}$

α

$\alpha$

1 - α

$1-\alpha$

1 \geq \frac{α}{2}

$1 \geq \frac{\alpha}{2}$

1 - θ

$1-\theta$

θ

$\theta$

Meinen Sie die Antwort von @Keith Winstein?

— whuber

@whuber, ja ich meine Keith Winsteins Antwort.

— Wahrscheinlichkeitsrechnung

9

Das Problem beginnt mit Ihrem Satz:

Beispiele, die auf falschen Vorannahmen beruhen, sind nicht akzeptabel, da sie nichts über die interne Konsistenz der verschiedenen Ansätze aussagen.

Ja gut, woher weißt du, dass dein Prior richtig ist?

Nehmen Sie den Fall der Bayes'schen Folgerung in der Phylogenie. Die Wahrscheinlichkeit für mindestens eine Änderung wird durch die Formel mit der Evolutionszeit (Verzweigungslänge t) in Beziehung gesetzt

P = 1 - e^{- \frac{4}{3} u t}

$P=1-e^{-\frac{4}{3}ut}$

wobei u die Substitutionsrate ist.

Nun möchten Sie ein Modell der Evolution erstellen, das auf dem Vergleich von DNA-Sequenzen basiert. Im Wesentlichen versuchen Sie, einen Baum zu schätzen, in dem Sie versuchen, das Ausmaß der Änderung zwischen den DNA-Sequenzen so genau wie möglich zu modellieren. Das obige P ist die Chance für mindestens eine Änderung in einem bestimmten Zweig. Evolutionsmodelle beschreiben die Änderungschancen zwischen zwei beliebigen Nukleotiden, und aus diesen Evolutionsmodellen wird die Schätzfunktion abgeleitet, entweder mit p als Parameter oder mit t als Parameter.

Sie haben keine vernünftigen Kenntnisse und haben eine Wohnung vor p gewählt. Dies impliziert von Natur aus eine exponentiell abnehmende Priorität für t. (Noch problematischer wird es, wenn Sie eine Ebene vor t setzen möchten. Die implizite Priorität von p hängt stark davon ab, wo Sie den Bereich von t abschneiden.)

Theoretisch kann t unendlich sein, aber wenn Sie einen unendlichen Bereich zulassen, ist der Bereich unter seiner Dichtefunktion ebenfalls unendlich, sodass Sie einen Kürzungspunkt für den vorherigen definieren müssen. Wenn Sie nun den Kürzungspunkt ausreichend groß gewählt haben, ist es nicht schwierig zu beweisen, dass beide Enden des glaubwürdigen Intervalls ansteigen, und zu einem bestimmten Zeitpunkt ist der wahre Wert nicht mehr im glaubwürdigen Intervall enthalten. Wenn Sie keine sehr gute Vorstellung vom Stand der Technik haben, kann nicht garantiert werden, dass die Bayes'schen Methoden anderen Methoden entsprechen oder diesen überlegen sind.

ref: Joseph Felsenstein: Phylogenien erschließen, Kapitel 18

Nebenbei bemerkt, ich habe diesen Bayesian / Frequentist-Streit satt. Sie sind beide unterschiedliche Rahmen und auch nicht die absolute Wahrheit. Die klassischen Beispiele für Bayes'sche Methoden stammen ausnahmslos aus der Wahrscheinlichkeitsrechnung, und kein einziger Frequentist wird ihnen widersprechen. Das klassische Argument gegen Bayes'sche Methoden beinhaltet immer die willkürliche Wahl eines Prioren. Und vernünftige Prioritäten sind definitiv möglich.

Es läuft alles auf die richtige Anwendung einer der beiden Methoden zum richtigen Zeitpunkt hinaus. Ich habe sehr wenige Argumente / Vergleiche gesehen, bei denen beide Methoden korrekt angewendet wurden. Annahmen jeder Methode werden sehr unterschätzt und viel zu oft ignoriert.

EDIT: Zur Verdeutlichung liegt das Problem darin, dass sich die Schätzung auf Basis von p von der Schätzung auf Basis von t im Bayes'schen Rahmen unterscheidet, wenn mit nicht informativen Prioren gearbeitet wird (was in einigen Fällen die einzig mögliche Lösung ist). Dies gilt nicht für das ML-Framework für phylogenetische Inferenz. Es handelt sich nicht um einen falschen Prior, sondern um eine Methode.

— Joris Meys
quelle

3

Es ist möglich, sich für die Unterschiede zwischen bayesianischer und frequentistischer Statistik zu interessieren, ohne dass es sich dabei um einen Streit handelt. Es ist wichtig, die Fehler sowie die Vorteile des bevorzugten Ansatzes zu kennen. Ich habe die Prioritäten ausdrücklich ausgeschlossen, da dies an sich kein Problem mit dem Framework ist, sondern nur eine Frage von GIGO. Gleiches gilt für Frequentistenstatistiken, zum Beispiel durch Annahme und falsche parametrische Verteilung der Daten. Das wäre keine Kritik an der frequentistischen Methodik, sondern nur an der jeweiligen Methode. Übrigens habe ich kein besonderes Problem mit unsachgemäßen Prioren.

— Dikran Beuteltier

3

Jaynes erstes Beispiel: Kein Statistiker, der bei Verstand ist, wird jemals einen F-Test und einen T-Test für diesen Datensatz verwenden. Abgesehen davon vergleicht er einen zweiseitigen Test mit P (b> a), was nicht dieselbe getestete Hypothese ist. Sein Beispiel ist also nicht fair, was er später im Wesentlichen zugibt. Darüber hinaus können Sie "die Frameworks" nicht vergleichen. Worüber reden wir dann? ML, REML, LS, bestrafte Methoden, ...? Intervalle für Koeffizienten, Statistiken, Vorhersagen, ...? Sie können auch fragen, ob der lutherische Dienst dem schiitischen gleichwertig oder überlegen ist. Sie reden über denselben Gott.

— Joris Meys

Können Sie klarstellen, welche Daten Sie haben und welche Parameter Sie in Ihrem Modell schätzen würden? Ich bin in diesem Punkt etwas verwirrt. Könnten Sie bitte auch $$ anstelle von $ verwenden, um die Formel zu zentrieren? Die Schriftgröße ist momentan sehr klein.

@Srikant: Das Beispiel in Felsensteins Buch basiert auf einem Jukes-Cantor-Modell für die DNA-Evolution. Daten sind DNA-Sequenzen. Sie möchten die Wahrscheinlichkeit einer Änderung in Ihrer Sequenz, die mit Ihrer Zweiglänge zusammenhängt, anhand der angegebenen Formel schätzen. Die Verzweigungslängen werden als Entwicklungszeit definiert: Je höher die Wahrscheinlichkeit von Änderungen ist, desto mehr Zeit vergeht zwischen dem Vorfahren und dem aktuellen Status. Tut mir leid, aber ich kann nicht die ganze Theorie hinter ML und der phylogenetischen Folgerung nach Bayes in nur einem Beitrag zusammenfassen. Felsenstein brauchte dafür ein halbes Buch.

— Joris Meys

Ich schätze, ich wollte nur, dass Sie klarstellen, welche Variablen in Ihrer Gleichung Daten waren und welche der Parameter waren, da dies in Ihrem Beitrag insbesondere für jemanden wie mich, der ein Außenseiter ist, nicht klar war. Ich bin immer noch verloren, aber ich denke, ich müsste das Buch lesen, um mehr herauszufinden.

8

Häufige Konfidenzintervalle begrenzen die Rate der falsch positiven Ergebnisse (Typ I-Fehler) und garantieren, dass ihre Abdeckung auch im schlimmsten Fall durch den Konfidenzparameter unten begrenzt wird. Bayesianische Glaubwürdigkeitsintervalle nicht.

Wenn Sie sich also für falsch positive Ergebnisse interessieren und diese binden müssen, sollten Sie Konfidenzintervalle wählen.

Nehmen wir zum Beispiel an, Sie haben einen bösen König mit einem Hof von 100 Höflingen und Kurtisanen und er möchte mit ihnen ein grausames statistisches Spiel spielen. Der König hat eine Tüte mit einer Billion fairer Münzen und eine unfaire Münze, deren Kopfwahrscheinlichkeit 10% beträgt. Er wird das folgende Spiel spielen. Zuerst zieht er eine Münze gleichmäßig und zufällig aus der Tasche.

Dann wird die Münze in einem Raum von 100 Personen herumgereicht und jede Person wird gezwungen, privat ein Experiment damit durchzuführen, und dann wird jede Person ein 95% iges Unsicherheitsintervall für die Wahrscheinlichkeit der Münzköpfe angeben.

Jeder, der ein Intervall angibt, das ein falsches Positiv darstellt - dh ein Intervall, das den wahren Wert der Kopfwahrscheinlichkeit nicht abdeckt - wird enthauptet.

Wenn wir die / a posteriori / Wahrscheinlichkeitsverteilungsfunktion des Münzgewichts ausdrücken wollen, dann ist das natürlich ein Glaubwürdigkeitsintervall. Die Antwort ist immer das Intervall [0,5, 0,5], unabhängig vom Ergebnis. Selbst wenn Sie null oder einen Kopf umdrehen, sagen Sie immer noch [0,5, 0,5], weil es sehr viel wahrscheinlicher ist, dass der König eine faire Münze gezogen hat und Sie einen 1.1024-Tag hatten, in dem Sie zehn Köpfe hintereinander hatten Dann zog der König die unfaire Münze.

Das ist also keine gute Idee für die Höflinge und Kurtisanen! Denn wenn die unfaire Münze gezogen wird, ist der ganze Raum (alle 100 Personen) falsch und sie werden alle geköpft.

In dieser Welt, in der es vor allem um False Positives geht, brauchen wir eine absolute Garantie dafür, dass die Rate der False Positives unter 5% liegt, unabhängig davon, welche Münze gezogen wird. Dann müssen wir ein Konfidenzintervall wie Blyth-Still-Casella oder Clopper-Pearson verwenden, das funktioniert und unabhängig vom wahren Wert des Parameters auch im schlimmsten Fall eine Abdeckung von mindestens 95% bietet . Wendet stattdessen jeder diese Methode an, so können wir am Ende des Tages unabhängig davon, welche Münze gezogen wird, garantieren, dass die erwartete Anzahl falscher Personen nicht mehr als fünf beträgt.

Der Punkt ist also: Wenn Ihr Kriterium die Begrenzung von False Positives (oder gleichwertig die Gewährleistung der Abdeckung) erfordert, müssen Sie ein Konfidenzintervall festlegen. Das ist was sie tun. Glaubwürdigkeitsintervalle sind möglicherweise ein intuitiverer Weg, um Unsicherheit auszudrücken, und sie können bei einer häufig durchgeführten Analyse recht gut abschneiden, bieten jedoch nicht die garantierte Grenze für falsch positive Ergebnisse, die Sie erhalten, wenn Sie danach fragen.

(Wenn Sie sich auch für falsche Negative interessieren, brauchen Sie natürlich eine Methode, die auch für diese Garantien gibt ...)

— Keith Winstein
quelle

6

Denkanstöße, jedoch ist das spezielle Beispiel unfair, da der frequentistische Ansatz die relativen Kosten von falsch-positiven und falsch-negativen Kosten berücksichtigen darf, der Bayes'sche Ansatz jedoch nicht. Nach der Bayes'schen Entscheidungstheorie ist es richtig, ein Intervall von [0,1] anzugeben, da mit falsch-negativen Ergebnissen keine Strafe verbunden ist. Somit würde in einem vergleichbaren Vergleich der Rahmenbedingungen auch keiner der Bayesianer jemals enthauptet werden. Das Problem mit der Begrenzung von Falsch-Positiven gibt mir jedoch eine Richtung, in die ich nach einer Antwort auf Jaynes 'Herausforderung suchen kann.

— Dikran Beuteltier

1

Es ist auch zu beachten, dass, wenn die ausgewählte Münze oft genug geworfen wird, das Bayes'sche Konfidenzintervall letztendlich eher auf der Langzeitfrequenz der Köpfe für die bestimmte Münze als auf der vorherigen zentriert wird. Wenn mein Leben von dem Intervall abhängen würde, das die wahre Wahrscheinlichkeit eines Kopfes enthält, würde ich die Münze nicht nur einmal werfen!

— Dikran Beuteltier

1

Wenn man dies etwas genauer betrachtet, ist dieses Beispiel ungültig, da das Kriterium zur Messung des Erfolgs nicht mit dem Kriterium übereinstimmt, das die vom König gestellte Frage impliziert. Das Problem liegt im "egal welche Münze gezogen wird", einer Klausel, die entwickelt wurde, um jede Methode auszulösen, die das Vorwissen über die Seltenheit der voreingenommenen Münze nutzt. Es kommt vor, dass Bayesains auch Grenzen ableiten kann (z. B. PAC-Grenzen), und ich vermute, dass die Antwort dieselbe ist wie das Clopper-Pearson-Intervall. Um ein fairer Test zu sein, müssen beide Ansätze die gleichen Informationen enthalten.

— Dikran Beuteltier

1

Dikran, es muss keine "Bayesianer" und "Frequentisten" geben. Sie sind keine inkompatiblen Philosophieschulen, denen man nur eine abonnieren darf! Sie sind mathematische Werkzeuge, deren Wirksamkeit im gemeinsamen Rahmen der Wahrscheinlichkeitstheorie gezeigt werden kann. Mein Punkt ist, dass WENN die Anforderung eine absolute Grenze für falsch positive Werte ist, unabhängig vom wahren Wert des Parameters, DANN ist ein Konfidenzintervall die Methode, mit der dies erreicht wird. Natürlich sind wir uns alle einig über die gleichen Axiome der Wahrscheinlichkeit und die gleiche Antwort kann auf viele Arten abgeleitet werden.

— Keith Winstein

1

[0.1, 0.5]

$[0.1,0.5]$

0.1

$0.1$

0.5

$0.5$

100% \geq 95%

$\text{100%} \geq \text{95%}$

— Wahrscheinlichkeitslogik

0

Gibt es Beispiele, bei denen das Intervall der Frequentisten dem Intervall der Bayesianischen Glaubwürdigkeit deutlich überlegen ist (gemäß der von Jaynes implizit gemachten Herausforderung)?

$\theta$ $10$ $\theta$ $1$ $\theta$

Bernardo schlug eine "Referenz vor" vor, die als Standard für die wissenschaftliche Kommunikation verwendet werden sollte [und sogar ein "glaubwürdiges Referenzintervall" ( Bernardo - objektive glaubwürdige Regionen )]. Unter der Annahme, dass dies der Bayes'sche Ansatz ist, stellt sich nun die Frage: Wann ist ein Intervall einem anderen überlegen? Die frequentistischen Eigenschaften des Bayes'schen Intervalls sind nicht immer optimal, aber auch nicht die bayes'schen Eigenschaften des "frequentistischen Intervalls"
(übrigens, was ist das "frequentistische Intervall"?)

— Stéphane Laurent
quelle

Ich spekuliere, aber ich vermute, dass diese Antwort die gleiche Behandlung erhält, die andere haben. Jemand wird einfach argumentieren, dass dies ein Problem der schlechten Wahl der Prioritäten und nicht einer inhärenten Schwäche der Bayes'schen Verfahren ist, die meiner Ansicht nach teilweise versucht, einer berechtigten Kritik zu entgehen.

— Kardinal

@ Kardinals Kommentar ist ganz richtig. Der Prior hier ist um eine Größenordnung verschoben, was die Kritik sehr schwach macht. Vorherige Informationen sind auch für Frequentisten wichtig. Was man a priori weiß, sollte zB bestimmen, welche Schätzungen und Teststatistiken verwendet werden. Wenn diese Entscheidungen auf Informationen beruhen, die um eine Größenordnung falsch sind, sind schlechte Ergebnisse zu erwarten. Bayesianer oder Frequentist zu sein, kommt nicht in Frage.

— Gast

Mein "Beispiel" war nicht der wichtige Teil meiner Antwort. Aber was ist eine gute Wahl von Prior? Es ist leicht vorstellbar, dass ein Prior, dessen Unterstützung den wahren Parameter enthält, der hintere jedoch nicht, so dass das Frequenzintervall überlegen ist.

— Stéphane Laurent

Kardinal und Gast haben Recht, meine Frage enthielt ausdrücklich "Beispiele, die auf falschen Vorannahmen beruhen, sind nicht akzeptabel, da sie nichts über die interne Konsistenz der verschiedenen Ansätze aussagen." aus einem guten Grund. Frequentistische Tests können sowohl auf falschen als auch auf Bayes'schen Annahmen basieren (das Bayes'sche Framework gibt die Annahmen expliziter an). die frage ist, ob der rahmen schwächen hat. Auch wenn der wahre Wert im Vorhergehenden, aber nicht im Nachhergehenden liegt, würde dies bedeuten, dass die Beobachtungen die Möglichkeit ausschließen, dass der wahre Wert korrekt ist!

— Dikran Beuteltier

1

Vielleicht sollte ich meine Antwort bearbeiten und mein "Beispiel" löschen - dies ist nicht der ernsthafte Teil meiner Antwort. Meine Antwort betraf hauptsächlich die Bedeutung des Bayes'schen Ansatzes. Wie nennt man den Bayes'schen Ansatz? Dieser Ansatz erfordert die Auswahl eines subjektiven Prior oder verwendet eine automatische Methode zur Auswahl eines nicht informativen Prior? Im zweiten Fall ist es wichtig, die Arbeit von Bernardo zu erwähnen. Zweitens haben Sie die "Überlegenheits" -Relation zwischen Intervallen nicht definiert: Wann ist ein Intervall einem anderen überlegen?

— Stéphane Laurent