Ein Teil des Problems besteht darin, dass die häufig verwendete Definition einer Wahrscheinlichkeit keine nicht-triviale Wahrscheinlichkeit für das Ergebnis eines bestimmten Experiments zulässt, sondern nur für eine fiktive Population von Experimenten, aus denen dieses bestimmte Experiment als Stichprobe betrachtet werden kann. Die Definition eines CI ist verwirrend, da es sich eher um eine Aussage zu dieser (normalerweise) fiktiven Population von Experimenten handelt als um die speziellen Daten, die in der vorliegenden Instanz gesammelt wurden. Teil des Problems ist also die Definition einer Wahrscheinlichkeit: Die Vorstellung, dass der wahre Wert innerhalb eines bestimmten Intervalls mit einer Wahrscheinlichkeit von 95% liegt, widerspricht einem frequentistischen Rahmen.
Ein weiterer Aspekt des Problems ist, dass bei der Berechnung des Frequentist Confidence nicht alle in der jeweiligen Stichprobe enthaltenen Informationen verwendet werden, die für die Begrenzung des wahren Werts der Statistik relevant sind. Meine Frage "Gibt es Beispiele, bei denen Bayes'sche glaubwürdige Intervalle offensichtlich häufigen Konfidenzintervallen unterlegen sind?"diskutiert ein Papier von Edwin Jaynes, das einige wirklich gute Beispiele enthält, die den Unterschied zwischen Konfidenzintervallen und glaubwürdigen Intervallen deutlich machen. Besonders relevant für diese Diskussion ist Beispiel 5, in dem der Unterschied zwischen einem glaubwürdigen und einem Konfidenzintervall für die Schätzung des Parameters einer abgeschnittenen Exponentialverteilung (für ein Problem bei der industriellen Qualitätskontrolle) erörtert wird. In dem von ihm angegebenen Beispiel gibt es genügend Informationen in der Stichprobe, um sicherzustellen, dass der wahre Wert des Parameters nirgendwo in einem richtig konstruierten 90% -Konfidenzintervall liegt!
Für manche mag dies schockierend erscheinen, aber der Grund für dieses Ergebnis ist, dass Konfidenzintervalle und glaubwürdige Intervalle Antworten auf zwei verschiedene Fragen sind, aus zwei unterschiedlichen Interpretationen der Wahrscheinlichkeit.
Das Konfidenzintervall ist die Antwort auf die Anfrage: "Geben Sie mir ein Intervall, das den wahren Wert des Parameters in % der Instanzen eines Experiments enthält, das häufig wiederholt wird." Das glaubwürdige Intervall ist eine Antwort auf die Anfrage: "Geben Sie mir ein Intervall, das den wahren Wert mit der Wahrscheinlichkeit eine Klammer setzt, die für die bestimmte Probe gilt, die ich tatsächlich beobachtet habe. " Um die letztere Anfrage beantworten zu können, müssen wir entweder (a ) ein neues Konzept des Datenerzeugungsprozesses oder (b) ein anderes Konzept der Definition der Wahrscheinlichkeit selbst. p100pp
Der Hauptgrund dafür, dass ein bestimmtes 95-Prozent-Konfidenzintervall keine 95-Prozent-Wahrscheinlichkeit für die Eindämmung des Mittelwerts impliziert, liegt darin, dass das Konfidenzintervall eine Antwort auf eine andere Frage ist. Es ist also nur die richtige Antwort, wenn die Antwort auf die beiden Fragen zutrifft haben die gleiche numerische Lösung.
Kurz, glaubwürdige und vertrauenswürdige Intervalle beantworten unterschiedliche Fragen aus unterschiedlichen Perspektiven. beide sind nützlich, aber Sie müssen das richtige Intervall für die Frage auswählen, die Sie tatsächlich stellen möchten. Wenn Sie ein Intervall wünschen, das eine Interpretation einer 95% igen (hinteren) Wahrscheinlichkeit des Enthaltens des wahren Werts zulässt, wählen Sie ein glaubwürdiges Intervall (und damit die damit verbundene Konzeptualisierung der Wahrscheinlichkeit) und kein Konfidenzintervall. Das, was Sie nicht tun sollten, ist, in der Interpretation eine andere Definition der Wahrscheinlichkeit als die in der Analyse verwendete zu verwenden.
Vielen Dank an @cardinal für seine Verfeinerungen!
Hier ist ein konkretes Beispiel aus David MaKays ausgezeichnetem Buch "Informationstheorie, Inferenz und Lernalgorithmen " (Seite 464):
Der interessierende Parameter sei und die Daten , ein Paar von Punkten und die unabhängig von der folgenden Verteilung gezogen werden:D x 1 x 2θDx1x2
p(x|θ)=⎧⎩⎨⎪⎪1/21/20x=θ,x=θ+1,otherwise
Wenn ist , dann würden wir erwarten , die Datensätze zu sehen , , und alle mit gleicher Wahrscheinlichkeit . Betrachten Sie das Konfidenzintervallθ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 439(39,39)(39,40)(40,39)(40,40)1/4
[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)] .
Dies ist eindeutig ein gültiges 75% -Konfidenzintervall, denn wenn Sie die Daten viele Male neu abgetastet haben , würde das auf diese Weise konstruierte Konfidenzintervall in 75% der Fälle den wahren Wert enthalten.D=(x1,x2)
Betrachten Sie nun die Daten . In diesem Fall wäre das häufigste 75% -Konfidenzintervall . Unter der Annahme, dass das Modell des Erzeugungsprozesses korrekt ist, könnte in diesem Fall 28 oder 29 sein, und wir haben keinen Grund anzunehmen, dass 29 wahrscheinlicher als 28 ist, so dass die hintere Wahrscheinlichkeit . Also in diesem Fall das frequentistischen Konfidenzintervall ist eindeutig kein 75% glaubhaftes Intervall , da es nur eine 50% ige Wahrscheinlichkeit, dass sie den wahren Wert enthalten , gegeben , was wir ableiten können aus dieser speziellen Probe .[ 29 , 29 ] θ p ( θ = 28 | D ) = p ( θ = 29 | D ) = 1 / 2 θ θD=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ
Ja, dies ist ein erfundenes Beispiel, aber wenn Konfidenzintervalle und glaubwürdige Intervalle nicht unterschiedlich wären, wären sie in erfundenen Beispielen immer noch identisch.
Beachten Sie, dass der Hauptunterschied darin besteht, dass das Konfidenzintervall eine Aussage darüber ist, was passieren würde, wenn Sie das Experiment viele Male wiederholen. Das glaubwürdige Intervall ist eine Aussage darüber, was aus dieser bestimmten Stichprobe abgeleitet werden kann.