Was ist der Unterschied zwischen einem Konfidenzintervall und einem glaubwürdigen Intervall?


Antworten:


313

Ich stimme Srikants Erklärung vollkommen zu. Um es heuristischer zu machen:

Klassische Ansätze gehen im Allgemeinen davon aus, dass die Welt eine Einbahnstraße ist (z. B. ein Parameter hat einen bestimmten wahren Wert), und versuchen, Experimente durchzuführen, deren resultierende Schlussfolgerung - unabhängig vom wahren Wert des Parameters - mit mindestens einem Minimum korrekt ist Wahrscheinlichkeit.

Um die Unsicherheit in Bezug auf unser Wissen nach einem Experiment auszudrücken, verwendet der häufig verwendete Ansatz ein "Konfidenzintervall" - einen Wertebereich, der den wahren Wert des Parameters mit einer Mindestwahrscheinlichkeit von beispielsweise 95% einschließt. Ein Frequentist entwirft das Experiment und das 95% -Konfidenzintervall-Verfahren so, dass von 100 durchgeführten Experimenten bis zum Ende mindestens 95 der resultierenden Konfidenzintervalle den wahren Wert des Parameters enthalten. Die anderen 5 könnten leicht falsch sein, oder sie könnten völliger Unsinn sein - formal gesehen ist das in Bezug auf die Herangehensweise in Ordnung, solange 95 von 100 Schlussfolgerungen korrekt sind. (Natürlich würden wir es vorziehen, wenn sie etwas falsch sind, nicht totaler Unsinn.)

Bayesianische Ansätze formulieren das Problem unterschiedlich. Anstatt zu sagen, dass der Parameter nur einen (unbekannten) wahren Wert hat, sagt eine Bayes'sche Methode, dass der Wert des Parameters fest ist, aber aus einer Wahrscheinlichkeitsverteilung ausgewählt wurde - der früheren Wahrscheinlichkeitsverteilung. (Eine andere Art zu sagen ist, dass der Bayesian vor dem Durchführen von Messungen eine Wahrscheinlichkeitsverteilung zuordnet, die er einen Glaubenszustand nennt, um den wahren Wert des Parameters zu bestimmen.) Dieser "Prior" könnte bekannt sein (stellen Sie sich vor, Sie versuchen es Um die Größe eines Lastwagens abzuschätzen, müssen wir die Gesamtverteilung der Lastwagengrößen aus dem DMV kennen. Die Bayes'sche Folgerung ist einfacher - wir sammeln einige Daten und berechnen dann die Wahrscheinlichkeit, dass unterschiedliche Werte des Parameters GIVEN die Daten ergeben. Diese neue Wahrscheinlichkeitsverteilung wird "a posteriori Wahrscheinlichkeit" oder einfach "posterior" genannt. Bayes'sche Ansätze können ihre Unsicherheit zusammenfassen, indem sie einen Wertebereich für die posteriore Wahrscheinlichkeitsverteilung angeben, der 95% der Wahrscheinlichkeit umfasst - dies wird als "95% -Vertrauensintervall" bezeichnet.

Ein bayesianischer Partisan könnte das häufig auftretende Konfidenzintervall wie folgt kritisieren: "Was ist, wenn 95 von 100 Experimenten ein Konfidenzintervall ergeben, das den wahren Wert enthält? Es interessiert mich nicht 99 Experimente, die ich NICHT getan habe; es interessiert mich für dieses Experiment ICH HABE DAS GEMACHT. Deine Regel lässt zu, dass 5 von 100 Unsinn sind [negative Werte, unmögliche Werte], solange die anderen 95 stimmen. Das ist lächerlich. "

Ein eingefleischter Frequentist könnte das Bayes'sche Glaubwürdigkeitsintervall wie folgt kritisieren: "Was ist, wenn 95% der posterioren Wahrscheinlichkeit in diesem Bereich enthalten sind? Was ist, wenn der wahre Wert beispielsweise 0,37 beträgt? Wenn dies der Fall ist, führen Sie Ihre Methode aus Anfang bis Ende wird in 75% der Fälle FALSCH sein. Ihre Antwort lautet: "Na ja, das ist in Ordnung, da es nach dem Stand der Technik sehr selten vorkommt, dass der Wert 0,37 beträgt." Funktioniert für JEDEN möglichen Wert des Parameters.Ich interessiere mich nicht für 99 Werte des Parameters, die ES NICHT HAT.Ich interessiere mich für den einen wahren Wert, den ES HAT.Oh Übrigens, Ihre Antworten sind nur korrekt Wenn der Prior richtig ist. Wenn Sie ihn einfach aus der Luft ziehen, weil er sich richtig anfühlt, können Sie weit davon entfernt sein. "

In gewisser Hinsicht sind beide Partisanen in ihrer Kritik an den Methoden des jeweils anderen richtig, aber ich möchte Sie eindringlich bitten, mathematisch über die Unterscheidung nachzudenken - wie Srikant erklärt.


Hier ist ein erweitertes Beispiel aus diesem Vortrag, das den Unterschied genau in einem diskreten Beispiel zeigt.

Als ich ein Kind war, überraschte mich meine Mutter gelegentlich, indem sie ein Glas mit Schokoladenkeksen bestellte, die per Post geliefert wurden. Die Lieferfirma hatte vier verschiedene Arten von Keksdosen auf Lager - Typ A, Typ B, Typ C und Typ D, und sie befanden sich alle auf demselben Lastwagen, und Sie waren sich nie sicher, welche Art Sie bekommen würden. Jedes Glas hatte genau 100 Kekse, aber das Merkmal, das die verschiedenen Keksdosen auszeichnete, war die jeweilige Verteilung der Schokoladenstückchen pro Keks. Wenn Sie in ein Glas greifen und ein einzelnes Plätzchen gleichmäßig zufällig herausnehmen, sind dies die Wahrscheinlichkeitsverteilungen, die Sie für die Anzahl der Chips erhalten würden:

Alt-Text

Ein Typ-A-Keksdose hat zum Beispiel 70 Kekse mit jeweils zwei Chips und keine Kekse mit vier oder mehr Chips! Ein Typ-D-Keksdose hat 70 Kekse mit je einem Chip. Beachten Sie, dass jede vertikale Spalte eine Wahrscheinlichkeitsmassenfunktion ist - die bedingte Wahrscheinlichkeit für die Anzahl der Chips, die Sie erhalten würden, vorausgesetzt, dass jar = A oder B oder C oder D und jede Spalte 100 ergibt.

Ich liebte es, ein Spiel zu spielen, sobald der Lieferbote mein neues Keksdöschen abgesetzt hatte. Ich würde zufällig einen einzelnen Keks aus dem Glas ziehen, die Chips auf dem Keks zählen und versuchen, meine Ungewissheit auszudrücken - auf der 70-prozentigen Ebene - welche Gläser es sein könnten. Somit ist es die Identität des Glases (A, B, C oder D), die den Wert des zu schätzenden Parameters darstellt . Die Anzahl der Chips (0, 1, 2, 3 oder 4) ist das Ergebnis oder die Beobachtung oder die Probe.

Ursprünglich habe ich dieses Spiel mit einem häufigen Konfidenzintervall von 70% gespielt. Ein solches Intervall muss sicherstellen, dass unabhängig vom tatsächlichen Wert des Parameters, dh unabhängig davon, welche Keksdose ich erhalten habe, der tatsächliche Wert mit einer Wahrscheinlichkeit von mindestens 70% erfasst wird.

Ein Intervall ist natürlich eine Funktion, die ein Ergebnis (eine Zeile) mit einer Reihe von Werten des Parameters (einer Reihe von Spalten) in Beziehung setzt. Aber um das Konfidenzintervall zu konstruieren und eine Abdeckung von 70% zu gewährleisten, müssen wir "vertikal" arbeiten - indem wir jede Spalte der Reihe nach betrachten und sicherstellen, dass 70% der Wahrscheinlichkeitsmassenfunktion abgedeckt sind, so dass 70% der Zeit Die Spaltenidentität ist Teil des resultierenden Intervalls. Denken Sie daran, dass es die vertikalen Spalten sind, die eine PMF bilden

Nach dieser Prozedur kam ich zu folgenden Intervallen:

Bildbeschreibung hier eingeben

Wenn die Anzahl der Chips auf dem von mir gezogenen Cookie beispielsweise 1 beträgt, ist mein Konfidenzintervall {B, C, D}. Wenn die Zahl 4 ist, ist mein Konfidenzintervall {B, C}. Beachten Sie, dass das Intervall, das sich aus dieser Prozedur ergibt, das richtige Glas mit einer Wahrscheinlichkeit von mindestens 70% enthält, da jede Spalte 70% oder mehr ergibt, egal in welcher Spalte wir uns wirklich befinden (egal in welchem ​​Glas der Zusteller abgesetzt hat).

Beachten Sie auch, dass das Verfahren, das ich bei der Erstellung der Intervalle befolgt habe, einige Ermessensspielräume hatte. In der Spalte für Typ B hätte ich genauso leicht sicherstellen können, dass die Intervalle, in denen B enthalten war, 0,1,2,3 statt 1,2,3,4 betragen würden. Dies hätte zu einer Abdeckung von 75% für Typ-B-Gläser (12 + 19 + 24 + 20) geführt, die immer noch die Untergrenze von 70% erreicht hätte.

Meine Schwester Bayesia fand diesen Ansatz allerdings verrückt. "Sie müssen den Zusteller als Teil des Systems betrachten", sagte sie. "Behandeln wir die Identität des Glases als eine Zufallsvariable selbst und nehmen wir an , dass der Zusteller unter ihnen einheitlich wählt - was bedeutet, dass er alle vier auf seinem Lastwagen hat, und wenn er zu unserem Haus kommt, wählt er nach dem Zufallsprinzip jeweils eine mit einheitliche Wahrscheinlichkeit. "

"Schauen wir uns nun mit dieser Annahme die gemeinsamen Wahrscheinlichkeiten des gesamten Ereignisses an - die Art des Glases und die Anzahl der Chips, die Sie aus Ihrem ersten Cookie ziehen", sagte sie und zeichnete die folgende Tabelle:

Bildbeschreibung hier eingeben

Beachten Sie, dass die gesamte Tabelle jetzt eine Wahrscheinlichkeitsmassenfunktion ist, dh die gesamte Tabelle wird zu 100% summiert.

"Okay", sagte ich, "wohin gehst du damit?"

"Sie haben die bedingte Wahrscheinlichkeit der Anzahl der Chips in Anbetracht des Glases untersucht", sagte Bayesia. "Das ist alles falsch! Was Sie wirklich interessiert, ist die bedingte Wahrscheinlichkeit, welches Glas es ist, angesichts der Anzahl der Chips auf dem Cookie! Ihr 70% -Intervall sollte einfach die Listengläser enthalten, die insgesamt eine 70% -ige Wahrscheinlichkeit des Seins haben das wahre Glas. Ist das nicht viel einfacher und intuitiver? "

"Sicher, aber wie berechnen wir das?" Ich fragte.

"Nehmen wir an , wir wissen, dass Sie 3 Chips haben. Dann können wir alle anderen Zeilen in der Tabelle ignorieren und diese Zeile einfach als Wahrscheinlichkeitsmassenfunktion behandeln. Wir müssen die Wahrscheinlichkeiten proportional skalieren, sodass jede Zeile auf 100 summiert " Sie tat:

Bildbeschreibung hier eingeben

"Beachten Sie, dass jede Reihe jetzt eine pmf ist und zu 100% summiert. Wir haben die bedingte Wahrscheinlichkeit von dem, womit Sie begonnen haben, gekippt - jetzt ist es die Wahrscheinlichkeit, dass der Mann angesichts der Anzahl der Chips auf ein bestimmtes Glas gefallen ist der erste Keks. "

"Interessant", sagte ich. "Also kreisen wir gerade genug Gläser in jeder Reihe ein, um eine Wahrscheinlichkeit von bis zu 70% zu erreichen?" Wir haben genau das getan und die folgenden Glaubwürdigkeitsintervalle festgelegt:

Bildbeschreibung hier eingeben

Jedes Intervall enthält eine Reihe von Gläsern, die a posteriori mit einer Wahrscheinlichkeit von 70% das wahre Glas sind.

"Nun, warte", sagte ich. "Ich bin nicht überzeugt. Lassen Sie uns die beiden Arten von Intervallen nebeneinander stellen und sie vergleichen, um sie zu erfassen. Vorausgesetzt, der Auslieferer wählt jede Art von Glas mit gleicher Wahrscheinlichkeit und Glaubwürdigkeit aus."

Hier sind sie:

Vertrauensintervalle:

Bildbeschreibung hier eingeben

Glaubwürdigkeitsintervalle:

Bildbeschreibung hier eingeben

"Sehen Sie, wie verrückt Ihre Vertrauensintervalle sind?" sagte Bayesia. "Du hast nicht einmal eine vernünftige Antwort, wenn du einen Keks mit null Chips ziehst! Du sagst nur, es ist das leere Intervall. Aber das ist offensichtlich falsch - es muss eine der vier Arten von Gläsern sein. Wie kannst du damit leben? Geben Sie selbst ein Intervall am Ende des Tages an, wenn Sie wissen, dass das Intervall falsch ist, und auch, wenn Sie einen Keks mit 3 Chips ziehen - Ihr Intervall ist nur in 41% der Fälle korrekt Intervall ist Schwachsinn. "

"Nun, hey", antwortete ich. "Es ist in 70% der Fälle richtig, egal welches Glas der Zusteller abgegeben hat. Das ist viel mehr, als Sie über Ihre Glaubwürdigkeitsintervalle sagen können. Was ist, wenn das Glas vom Typ B ist? Dann ist Ihr Intervall in 80% der Fälle falsch." und nur in 20% der Fälle richtig! "

"Das scheint ein großes Problem zu sein", fuhr ich fort, "weil Ihre Fehler mit der Art des Glases korrelieren. Wenn Sie 100 'Bayes'-Roboter aussenden, um zu beurteilen, welche Art von Glas Sie haben, probiert jeder Roboter einen Keks aus, Sie Sagen Sie mir, dass Sie an Typ-B-Tagen erwarten, dass 80 der Roboter die falsche Antwort erhalten, von denen jeder> 73% an die falsche Schlussfolgerung glaubt! Das ist problematisch, insbesondere wenn Sie möchten, dass sich die meisten Roboter auf die Antwort einigen richtige Antwort."

"Außerdem mussten wir davon ausgehen, dass sich der Auslieferer einheitlich verhält und jede Art von Glas nach dem Zufallsprinzip auswählt", sagte ich. "Woher kam das? Was ist, wenn es falsch ist? Sie haben nicht mit ihm gesprochen, Sie haben ihn nicht interviewt. Doch alle Ihre Aussagen über eine spätere Wahrscheinlichkeit beruhen auf dieser Aussage über sein Verhalten. Ich musste nicht machen." solche Annahmen, und mein Intervall erfüllt sein Kriterium auch im schlimmsten Fall. "

"Es ist wahr, dass mein Glaubwürdigkeitsintervall bei Typ-B-Gläsern schlecht abschneidet", sagte Bayesia. "Aber na und? Typ-B-Gläser kommen nur in 25% der Fälle vor. Meine gute Berichterstattung über Typ-A-, C- und D-Gläser macht das wieder wett. Und ich veröffentliche niemals Unsinn."

"Es ist wahr, dass mein Konfidenzintervall schlecht abschneidet, wenn ich einen Cookie mit null Chips gezogen habe", sagte ich. "Aber was nun? Spanlose Kekse kommen höchstens 27% der Zeit im schlimmsten Fall vor (ein Typ-D-Glas). Ich kann es mir leisten, Unsinn für dieses Ergebnis zu machen, da KEIN Glas zu einer falschen Antwort von mehr als 30 führt % der ganzen Zeit."

"Die Spaltensummen sind wichtig", sagte ich.

"Die Reihensummen sind wichtig", sagte Bayesia.

"Ich kann sehen, dass wir in einer Sackgasse sind", sagte ich. "Wir sind beide in unseren mathematischen Aussagen richtig, sind uns aber nicht einig darüber, wie die Unsicherheit angemessen quantifiziert werden kann."

"Das stimmt", sagte meine Schwester. "Willst du einen Keks?"


17
Gute Antwort - nur ein kleiner Punkt, Sie sagen "... Anstatt zu sagen, dass der Parameter einen wahren Wert hat, sagt eine Bayes'sche Methode, dass der Wert aus einer Wahrscheinlichkeitsverteilung ausgewählt wird ..." Dies ist nicht wahr. Ein Bayesianer passt die Wahrscheinlichkeitsverteilung an, um die Unsicherheit über den wahren, unbekannten, festen Wert auszudrücken. Dies sagt aus, welche Werte plausibel sind, wenn man bedenkt, was vor der Beobachtung der Daten bekannt war. Die tatsächliche Wahrscheinlichkeitsaussage ist , wo der wahre Wert ist, und die Hypothese aufgestellt , ein, basierend auf den Informationen . Pr[θ0(θ,θ+dθ)|I]θ0θI
Wahrscheinlichkeitslogik

1
... cont'd ... aber es ist viel bequemer, nur zu schreiben und zu verstehen, was es "im Hintergrund" bedeutet. Dies kann natürlich viel Verwirrung stiften. p(θ)
Wahrscheinlichkeitslogik

16
Es tut mir leid, diesen super alten Beitrag wiederzubeleben, aber eine kurze Frage: In Ihrem Beitrag in dem Abschnitt, in dem der Frequentist den Bayes'schen Ansatz kritisiert, sagen Sie: "Was ist, wenn der wahre Wert beispielsweise 0,37 beträgt? Wenn dies der Fall ist, führen Sie Ihre Methode start aus zu beenden, wird zu 75% der Zeit falsch sein. " Wie hast du diese Zahlen bekommen? Wie entspricht 0,37 zu 75% falsch? Entspricht dies einer Art Wahrscheinlichkeitskurve? Danke
BYS2

1
Coole Illustration! Wie würden die Vertrauens- und Glaubwürdigkeitsintervalle des Schokoladensplittermodells angepasst, wenn wir n Kekse aus dem Glas probieren dürfen? Und können wir die Genauigkeit der beiden Ansätze bewerten, wenn wir Daten zu relativen Frequenzen akkumulieren? von Gläsern, die geliefert werden? Ich gehe davon aus, dass der Bayes'sche Ansatz bessere Vorhersagen treffen wird, wenn wir uns über die vorherige Verteilung ziemlich sicher sind (etwa nach etwa 30 Lieferungen?). Aber wenn sich die vorherige Datenbank plötzlich ändern sollte (sagen wir, ein neuer Auslieferungsmitarbeiter übernimmt den Job), dann hätte der Frequentist-Ansatz den Vorteil.
RobertF

4
@ BYS2, wenn der Autor das sagt "What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time", geben sie nur Beispielzahlen an, die sie erfunden haben . In diesem speziellen Fall würden sie sich auf eine frühere Verteilung beziehen, die einen sehr niedrigen Wert bei 0,37 hatte, wobei der größte Teil ihrer Wahrscheinlichkeitsdichte an anderer Stelle lag. Und wir gehen davon aus, dass unsere Beispielverteilung sehr schlecht abschneidet, wenn der wahre Wert des Parameters 0,37 beträgt, ähnlich wie Bayesias Glaubwürdigkeitsintervalle kläglich fehlgeschlagen sind, als das Glas zufällig vom Typ B war.
Garrett

32

Mein Verständnis ist wie folgt:

Hintergrund

Angenommen, Sie haben einige Daten und versuchen, zu schätzen . Sie haben einen Datenerzeugungsprozess, der beschreibt, wie unter der Bedingung . Mit anderen Worten, Sie kennen die Verteilung von (sagen wir .xθxθxf(x|θ)

Inferenzproblem

Ihr Inferenzproblem ist: Welche Werte von sind angesichts der beobachteten Daten sinnvoll ?θx

Vertrauensintervalle

Konfidenzintervalle sind eine klassische Antwort auf das oben genannte Problem. In diesem Ansatz nehmen Sie an, dass es einen wahren festen Wert von . Unter dieser Annahme verwenden Sie die Daten , um zu einer Schätzung von (sagen wir ). Sobald Sie Ihre Schätzung haben, möchten Sie beurteilen, wo der wahre Wert in Bezug auf Ihre Schätzung steht.θxθθ^

Beachten Sie, dass bei diesem Ansatz der wahre Wert keine Zufallsvariable ist. Es ist eine feste, aber unbekannte Größe. Im Gegensatz dazu Ihre Schätzung ist eine Zufallsvariable , wie es auf Ihren Daten abhängt , die aus dem Datenerzeugungsprozess erzeugt wurden. Auf diese Weise stellen Sie fest, dass Sie jedes Mal, wenn Sie Ihre Studie wiederholen, unterschiedliche Schätzungen erhalten.x

Das obige Verständnis führt zu der folgenden Methodik, um zu bewerten, wo der wahre Parameter in Bezug auf Ihre Schätzung steht. Definieren Sie ein Intervall mit der folgenden Eigenschaft:I[lb(x),ub(x)]

P(θI)=0.95

Ein Intervall, das wie oben konstruiert ist, wird als Konfidenzintervall bezeichnet. Da der wahre Wert unbekannt, aber fest ist, liegt der wahre Wert entweder im Intervall oder außerhalb des Intervalls. Das Konfidenzintervall ist dann eine Aussage über die Wahrscheinlichkeit, dass das Intervall, das wir erhalten, tatsächlich den wahren Parameterwert hat. Die Wahrscheinlichkeitsangabe bezieht sich also eher auf das Intervall (dh die Wahrscheinlichkeit, dass das Intervall den wahren Wert hat oder nicht) als auf die Position des wahren Parameterwerts.

In diesem Paradigma ist es sinnlos, über die Wahrscheinlichkeit zu sprechen, dass ein wahrer Wert kleiner oder größer als ein bestimmter Wert ist, da der wahre Wert keine Zufallsvariable ist.

Glaubwürdige Intervalle

Im Gegensatz zum klassischen Ansatz nehmen wir beim Bayes'schen Ansatz an, dass der wahre Wert eine Zufallsvariable ist. Somit erfassen wir unsere Unsicherheit über den wahren Parameterwert, indem wir dem wahren Parametervektor eine vorherige Verteilung auferlegen (sagen wir ).f(θ)

Unter Verwendung des Bayes-Theorems konstruieren wir die posteriore Verteilung für den Parametervektor, indem wir den Prior und die Daten, die wir haben, mischen (kurz ist der posteriore ).f(θ|)f(θ)f(x|θ)

Wir kommen dann zu einer Punktschätzung unter Verwendung der posterioren Verteilung (verwenden Sie z. B. den Mittelwert der posterioren Verteilung). Da unter diesem Paradigma der wahre Parametervektor jedoch eine Zufallsvariable ist, möchten wir auch das Ausmaß der Unsicherheit wissen, die wir in unserer Punktschätzung haben. Wir konstruieren also ein Intervall so, dass folgendes gilt:

P(l(θ)θub(θ))=0.95

Das obige ist ein glaubwürdiges Intervall.

Zusammenfassung

Glaubwürdige Intervalle erfassen unsere aktuelle Unsicherheit bezüglich der Position der Parameterwerte und können daher als probabilistische Aussage über den Parameter interpretiert werden.

Im Gegensatz dazu erfassen Konfidenzintervalle die Unsicherheit über das Intervall, das wir erhalten haben (dh ob es den wahren Wert enthält oder nicht). Sie können daher nicht als probabilistische Aussage über die wahren Parameterwerte interpretiert werden.


2
Ein Konfidenzintervall von 95% deckt per Definition den wahren Parameterwert in 95% der Fälle ab, wie Sie richtig angegeben haben. Daher beträgt die Wahrscheinlichkeit, dass Ihr Intervall den wahren Parameterwert abdeckt, 95%. Sie können manchmal etwas über die Wahrscheinlichkeit sagen, dass der Parameter größer oder kleiner als eine der Grenzen ist, basierend auf den Annahmen, die Sie bei der Erstellung des Intervalls getroffen haben (häufig die Normalverteilung Ihrer Schätzung). Sie können P (Theta> ub) oder P (ub <Theta) berechnen. Die Aussage ist in der Tat über die Grenze, aber Sie können es machen.
Joris Meys

9
Joris, dem kann ich nicht zustimmen. Ja, für jeden Wert des Parameters besteht eine Wahrscheinlichkeit von> 95%, dass das resultierende Intervall den wahren Wert abdeckt. Dies bedeutet nicht, dass nach einer bestimmten Beobachtung und Berechnung des Intervalls eine bedingte Wahrscheinlichkeit von 95% besteht, vorausgesetzt, dass DIESES Intervall den wahren Wert abdeckt. Wie ich weiter unten sagte, wäre es formal durchaus akzeptabel, wenn ein Konfidenzintervall 95% der Zeit [0, 1] ausspuckt und das leere die anderen 5% einstellt. In den Fällen, in denen Sie die leere Menge als Intervall erhalten haben, liegt der wahre Wert mit einer Wahrscheinlichkeit von nicht 95% innerhalb des Bereichs!
Keith Winstein

@ Keith: Ich verstehe deinen Standpunkt, obwohl eine leere Menge per Definition kein Intervall ist. Die Wahrscheinlichkeit eines Konfidenzintervalls ist im Gegensatz dazu auch nicht von den Daten abhängig. Jedes Konfidenzintervall stammt aus einer anderen Zufallsstichprobe, sodass die Wahrscheinlichkeit, dass Ihre Stichprobe so gezogen wird, dass der zugrunde liegende 95% -KI nicht den wahren Parameterwert abdeckt, unabhängig von den Daten nur 5% beträgt.
Joris Meys

1
Joris, ich habe "data" als Synonym für "sample" verwendet, also denke ich, dass wir uns einig sind. Mein Punkt ist, dass es möglich ist, dass Sie nach der Entnahme der Probe mit absoluter Sicherheit nachweisen können, dass Ihr Intervall falsch ist - dass es nicht den wahren Wert abdeckt. Dies bedeutet nicht, dass es sich nicht um ein gültiges 95% -Konfidenzintervall handelt. Sie können also nicht sagen, dass der Konfidenzparameter (95%) etwas über die Wahrscheinlichkeit der Abdeckung eines bestimmten Intervalls aussagt, nachdem Sie das Experiment durchgeführt und das Intervall erhalten haben. Dazu kann nur eine a posteriori Wahrscheinlichkeit sprechen, die von einem Prior informiert wurde.
Keith Winstein

4
@svadalli - der Bayes'sche Ansatz vertritt nicht die Ansicht, dass zufällig ist . Es ist nicht , das verteilt wird ( ist fest, aber unbekannt), es ist die Ungewissheit über die verteilt wird, abhängig vom Kenntnisstand über . Die tatsächliche Wahrscheinlichkeitsangabe, die erfasst, ist . In der Tat gilt das gleiche Argument für , es kann auch als fest, aber unbekannt angesehen werden. θ θθ θ θf(θ)Pr(θ is in the interval (θ,θ+dθ)|I)=f(θ)dθX
Wahrscheinlichkeitslogik

13

Ich bin mit Srikants Antwort in einem grundlegenden Punkt nicht einverstanden. Srikant erklärte dies:

Inferenzproblem: Ihr Inferenzproblem ist: Welche Werte von & thgr; sind angesichts der beobachteten Daten x vernünftig?

Tatsächlich ist dies das BAYESISCHE INFERENZPROBLEM. In der Bayes'schen Statistik versuchen wir, P (θ | x) zu berechnen, dh die Wahrscheinlichkeit des Parameterwerts bei den beobachteten Daten (Stichprobe). Das KREDIBLE INTERVALL ist ein Intervall von θ, das eine 95% ige Chance (oder eine andere Chance) hat, den wahren Wert von θ zu enthalten, wenn die verschiedenen dem Problem zugrunde liegenden Annahmen gegeben sind.

Das FREQUENTIST INFERENCE PROBLEM lautet:

Sind die beobachteten Daten x angesichts der angenommenen Werte von & thgr; vernünftig?

In der Statistik der Frequentisten versuchen wir, P (x | θ) zu berechnen, dh die Wahrscheinlichkeit, die Daten (Stichprobe) bei gegebenen hypothetischen Parameterwerten zu beobachten. Das VERTRAUENSINTERVALL (möglicherweise eine falsche Bezeichnung) wird folgendermaßen interpretiert: Wenn das Experiment, das die Zufallsstichprobe x erzeugt hat, viele Male wiederholt würde, würden 95% (oder andere) solcher Intervalle, die aus diesen Zufallsstichproben konstruiert wurden, den wahren Wert des Parameters enthalten.

Verwirrung mit deinem Kopf? Das ist das Problem mit der frequentistischen Statistik und die Hauptsache, die die Bayes'sche Statistik hat.

Wie Sikrant hervorhebt, hängen P (θ | x) und P (x | θ) wie folgt zusammen:

P (θ | x) = P (θ) P (x | θ)

Wobei P (θ) unsere vorherige Wahrscheinlichkeit ist; P (x | & thgr;) ist die Wahrscheinlichkeit der Daten, die von dieser vorherigen Bedingung abhängig sind, und P (& thgr; | x) ist die hintere Wahrscheinlichkeit. Das vorherige P (θ) ist von Natur aus subjektiv, aber das ist der Preis für Wissen über das Universum - in einem sehr tiefen Sinne.

Die anderen Teile der Antworten von Sikrant und Keith sind ausgezeichnet.


Technisch gesehen sind Sie korrekt, beachten jedoch, dass das Konfidenzintervall den Satz von Parameterwerten angibt, für die die Nullhypothese wahr ist. "Sind die beobachteten Daten x angesichts unserer Hypothese über Theta vernünftig?" kann wie folgt umformuliert werden: "Welche wahren Theta-Werte wären bei den beobachteten Daten x eine kompatible Hypothese?" Beachten Sie, dass die umformulierte Frage nicht unbedingt impliziert, dass Theta als Zufallsvariable angenommen wird. Die umformulierte Frage nutzt die Tatsache aus, dass wir Nullhypothesentests durchführen, indem wir untersuchen, ob der hypothetische Wert in das Konfidenzintervall fällt.

@svadali - Konfidenzintervalle werten Daten für eine feste Hypothese aus. Wenn Sie also beim Ändern des "festen" Teils der Gleichung die Wahrscheinlichkeit der Hypothese nicht berücksichtigen, bevor Sie Ihre Daten beobachten, müssen Sie Inkonsistenzen und inkohärente Ergebnisse feststellen. Die bedingte Wahrscheinlichkeit wird beim Ändern der Bedingungen nicht "eingeschränkt" (z. B. können Sie durch Ändern der Bedingungen eine bedingte Wahrscheinlichkeit von 0 auf 1 ändern). Die vorherige Wahrscheinlichkeit berücksichtigt diese Willkür. Die Konditionierung auf X erfolgt, weil wir sicher sind, dass X aufgetreten ist - wir haben X beobachtet!
Wahrscheinlichkeitslogik

13

Die zuvor gegebenen Antworten sind sehr hilfreich und detailliert. Hier ist meine 0,25 $.

Das Konfidenzintervall (CI) ist ein Konzept, das auf der klassischen Wahrscheinlichkeitsdefinition (auch als "frequentistische Definition" bezeichnet) basiert. Diese Wahrscheinlichkeit ist proportional und basiert auf dem axiomatischen System von Kolmogrov (und anderen).

Glaubwürdige Intervalle (Highest Posterior Density, HPD) haben ihre Wurzeln in der Entscheidungstheorie, die auf den Werken von Wald und de Finetti beruht (und von anderen stark erweitert wurde).

Da die Leute in diesem Thread hervorragende Arbeit geleistet haben, um Beispiele und die Unterschiede zwischen den Hypothesen im bayesianischen und im frequentistischen Fall zu nennen, möchte ich nur einige wichtige Punkte hervorheben.

  1. CIs basieren auf der Tatsache, dass Rückschlüsse auf alle möglichen Wiederholungen eines Experiments gezogen werden MÜSSEN, die sichtbar sind, und NICHT nur auf den beobachteten Daten, wobei HPDs GESAMT auf den beobachteten Daten basieren (und auf unseren vorherigen Annahmen).

  2. Im Allgemeinen sind CIs NICHT kohärent (wird später erklärt), während HPDs kohärent sind (aufgrund ihrer Wurzeln in der Entscheidungstheorie). Kohärenz (wie ich meiner Großmutter erklären würde) bedeutet: Wenn ein klassischer Statistiker (Frequentist) auf CI und ein Bayesianer auf HPD setzt, ist der Frequentist GEBUNDEN zu verlieren (mit Ausnahme des Trivialfalls) wenn HPD = CI). Kurz gesagt, wenn Sie die Ergebnisse Ihres Experiments als Wahrscheinlichkeit basierend auf den Daten zusammenfassen möchten, muss die Wahrscheinlichkeit eine hintere Wahrscheinlichkeit sein (basierend auf einer vorherigen). Es gibt einen Satz (vgl. Heath und Sudderth, Annals of Statistics, 1978), der (grob) besagt: Die Zuordnung der Wahrscheinlichkeit zu auf der Grundlage von Daten wird keinen sicheren Verlierer darstellen, wenn und nur wenn sie auf bayesianische Weise erhalten wird.θ

  3. Da CIs nicht an die beobachteten Daten gebunden sind (auch als "Conditionality Principle" CP bezeichnet), kann es paradoxe Beispiele geben. Fisher war ein großer Befürworter von CP und fand auch viele paradoxe Beispiele, wenn dies NICHT befolgt wurde (wie im Fall von CI). Dies ist der Grund, warum er im Gegensatz zu CI p-Werte für die Inferenz verwendete. Aus seiner Sicht basierten p-Werte auf den beobachteten Daten (viel kann über p-Werte gesagt werden, aber das steht hier nicht im Mittelpunkt). Zwei der bekanntesten paradoxen Beispiele sind: (4 und 5)

  4. Cox 'Beispiel (Annals of Math. Stat., 1958): (iid) für und wir wollen zu schätzen . ist NICHT festgelegt und wird durch Werfen einer Münze ausgewählt. Wenn der Münzwurf H ergibt, wird 2 gewählt, andernfalls wird 1000 gewählt. Die "gesunder Menschenverstand" -Schätzung - Stichprobenmittelwert ist eine unvoreingenommene Schätzung mit einer Varianz von . Was verwenden wir als Mittelwert der Varianz der Stichprobe, wenn ? Ist es nicht besser (oder vernünftiger), die Varianz des Stichprobenmittelwertschätzers als (bedingte Varianz) anstelle der tatsächlichen Varianz des Schätzers zu verwenden, was RIESIG ist !! (XiN(μ,σ2)i{1,,n}μn0.5σ2+0.0005σ2n=10000.001σ20.5σ2+0.0005σ2). Dies ist eine einfache Darstellung von CP, wenn wir die Varianz als wenn . allein hat keine Bedeutung oder keine Informationen für und (dh ist für sie von untergeordneter Bedeutung), aber GEGEBEN von dessen Wert, wissen Sie viel über die "Qualität der Daten". Dies bezieht sich direkt auf CI, da es sich um die Varianz handelt, die nicht auf konditioniert werden sollte , dh, wir werden am Ende die größere Varianz verwenden, also über konservativ.0.001σ2n=1000nμσnn

  5. Welchs Beispiel: Dieses Beispiel funktioniert für jedes , der Einfachheit halber nehmen wir jedoch . (iid), gehört zur Real-Linie. Dies impliziert (iid). (beachte, dass dies KEINE Statistik ist) hat eine von unabhängige Verteilung . Wir können st wählen , was impliziert ist der 99% CI vonnn=2X1,X2U(θ1/2,θ+1/2)θX1θU(1/2,1/2)12(X1+X2)x¯θθc>0Probθ(c<=x¯θ<=c)=1α(99%)(x¯c,x¯+c)θ. Die Interpretation dieses CI lautet: Wenn wir wiederholt eine Stichprobe machen, erhalten wir ein anderes und 99% (mindestens) Mal, wenn es wahres , ABER (der Elefant im Raum) für GEGEBENE Daten, wir Kennen Sie nicht die Wahrscheinlichkeit, dass CI true . Betrachten Sie nun die folgenden Daten: und , da sicher ist, dass das Intervall enthält (eine mögliche Kritik,x¯θθX1=0X2=1|X1X2|=1(X1,X2)θProb(|X1X2|=1)=0, aber wir können es mathematisch handhaben und ich werde es nicht diskutieren). Dieses Beispiel veranschaulicht auch das Konzept der Kohärenz auf wunderbare Weise. Wenn Sie ein klassischer Statistiker sind, setzen Sie definitiv auf den 99% CI, ohne den Wert von(vorausgesetzt, Sie sind Ihrem Beruf treu). Ein Bayesianer setzt jedoch nur dann auf das CI, wenn der Wert vonist in der Nähe von 1. Wenn wir an konditionieren Das Intervall ist kohärent und der Spieler wird kein sicherer Verlierer mehr sein (ähnlich dem Satz von Heath und Sudderth).|X1X2||X1X2||X1X2|

  6. Fisher hatte eine Empfehlung für solche Probleme - verwenden Sie CP. Für das Beispiel der Welch schlug Fisher vor, zu bedingen . Wie wir sehen, ist ein Hilfsmittel für , aber es liefert Informationen über Theta. Wenn SMALL ist, enthalten die Daten nicht viele Informationen zu . Wenn GROSS ist, enthalten die Daten viele Informationen zu . Fisher erweiterte die Strategie der Konditionierung der Hilfsstatistik auf eine allgemeine Theorie namens Fiducial InferenceX2X1X2X1θX2X1θX2X1θ(auch als sein größtes Versagen bezeichnet, vgl. Zabell, Stat. Sci. 1992), wurde jedoch aufgrund mangelnder Allgemeinheit und Flexibilität nicht populär. Fisher versuchte einen anderen Weg zu finden als die klassische Statistik (der Neyman-Schule) und die Bayes-Schule (daher das berühmte Sprichwort von Savage: "Fisher wollte ein Bayes-Omelett herstellen (dh CP verwenden), ohne die Bayes-Eier zu zerbrechen"). . Folklore (kein Beweis) sagt: Fisher in seinen Debatten Neyman angegriffen (für Typ I und Typ - II - Fehler und CI) von ihm ein rufender Qualitätskontrolle Typ eher als ein Wissenschaftler , wie Neymans Methoden nicht auf den beobachteten Daten haben konditionieren, stattdessen sah bei allen möglichen Wiederholungen.

  7. Statistiker möchten zusätzlich zum CP auch das Suffizienzprinzip (SP) verwenden. SP und CP implizieren jedoch zusammen das Likelihood-Prinzip (LP) (vgl. Birnbaum, JASA, 1962), dh bei CP und SP muss der Probenraum ignoriert und nur die Likelihood-Funktion betrachtet werden. Daher müssen wir uns nur die angegebenen Daten und NICHT den gesamten Probenraum ansehen (das Betrachten des gesamten Probenraums ähnelt dem wiederholten Abtasten). Dies hat zu Konzepten wie Observed Fisher Information (vgl. Efron und Hinkley, AS, 1978) geführt, die die Informationen über die Daten aus einer frequentistischen Perspektive messen. Die Informationsmenge in den Daten ist ein Bayes'sches Konzept (und steht daher im Zusammenhang mit HPD) anstelle von CI.

  8. Kiefer hat in den späten 1970er Jahren einige grundlegende Arbeiten an CI durchgeführt, aber seine Erweiterungen sind nicht populär geworden. Eine gute Referenzquelle ist Berger ("Could Fisher, Neyman und Jeffreys sind sich über das Testen von Hypothesen einig", Stat Sci, 2003).


Zusammenfassung:

(Wie von Srikant und anderen hervorgehoben)
CIs können nicht als Wahrscheinlichkeit interpretiert werden, und sie sagen nichts über den unbekannten Parameter aus, der die beobachteten Daten angibt. CIs sind Aussagen über wiederholte Experimente.

HPDs sind probabilistische Intervalle, die auf der posterioren Verteilung des unbekannten Parameters basieren und eine wahrscheinlichkeitsbasierte Interpretation basierend auf den angegebenen Daten haben.

Frequentist-Eigenschaft (wiederholte Abtastung) ist eine wünschenswerte Eigenschaft, und HPDs (mit geeigneten Prioritäten) und CI haben beide diese. HPDs bedingen bei den angegebenen Daten auch die Beantwortung der Fragen zum unbekannten Parameter

(Ziel NICHT subjektiv) Bayesianer stimmen mit den klassischen Statistikern darin überein, dass es einen einzigen WAHR-Wert des Parameters gibt. Beide unterscheiden sich jedoch darin, wie sie auf diesen wahren Parameter schließen.

Bayesianische HPDs bieten eine gute Möglichkeit, Daten zu konditionieren, aber wenn sie nicht mit den Frequentist-Eigenschaften von CI übereinstimmen, sind sie nicht sehr nützlich (Analogie: Eine Person, die HPDs (mit einigen früheren) ohne eine gute Frequentist-Eigenschaft verwendet, ist gebunden zum Scheitern verurteilt sein wie ein Zimmermann, der sich nur um den Hammer kümmert und den Schraubenzieher vergisst)

Endlich habe ich in diesem Thread Leute gesehen (Kommentare von Dr. Joris: "... Annahmen implizieren einen diffusen Prior, dh einen völligen Mangel an Wissen über den wahren Parameter."), Die über einen Mangel an Wissen über den wahren Parameter sprachen gleichbedeutend mit der Verwendung eines diffusen vor. Ich weiß nicht, ob ich der Aussage zustimmen kann (Dr. Keith stimmt mir zu). Zum Beispiel können im Fall der linearen Grundmodelle einige Verteilungen unter Verwendung eines einheitlichen Prior erhalten werden (was einige Leute als diffus bezeichnen), ABER es bedeutet NICHT, dass eine einheitliche Verteilung als NIEDRIGE INFORMATION VORHER betrachtet werden kann. Im Allgemeinen bedeutet NON-INFORMATIVE (Objective) prior nicht, dass nur wenige Informationen über den Parameter vorliegen.



Hinweis:Viele dieser Punkte basieren auf den Vorträgen eines der prominenten Bayesianer. Ich bin noch Student und hätte ihn irgendwie missverstehen können. Bitte nehmen Sie meine Entschuldigung im Voraus.


"Der Frequentist hat zu verlieren" Wenn ich die am häufigsten gewählte Antwort betrachte, würde ich davon ausgehen, dass dies von der Utility-Funktion abhängt (z. B. nicht, wenn die Optimierung der Reue stattfindet). Intuitiv könnte es auch von der Fähigkeit abhängen, die vorherige Funktion zu bestimmen ...
Abel Molina

4
"Der Frequentist muss unbedingt verlieren" ... * vorausgesetzt, er hat den entsprechenden Prior * (was im Allgemeinen nicht so einfach ist). Perfektes Beispiel: Spielsüchtige sind zu 99% davon überzeugt, dass sich ihr Glück diesmal ändern wird. Diejenigen, die dies vorab in ihre Entscheidungsanalyse einbeziehen, sind auf lange Sicht nicht so erfolgreich.
Cliff AB

1
Ich denke nicht, dass Sie Konfidenzintervalle als CIs abkürzen sollten , um die Unterscheidung zwischen glaubwürdigen Intervallen und Konfidenzintervallen zu beantworten.
Hugh

10

Es macht immer Spaß, sich auf ein bisschen Philosophie einzulassen. Ich mag die Antwort von Keith sehr, aber ich würde sagen, dass er die Position von "Mr forgetful Bayesia" einnimmt. Die schlechte Abdeckung bei Typ B und Typ C kann nur auftreten, wenn er / sie bei jedem Versuch die gleiche Wahrscheinlichkeitsverteilung anwendet und sich weigert, seine / ihre vorherige (n) zu aktualisieren.

Sie können dies ziemlich deutlich sehen, da die Gläser vom Typ A und Typ D sozusagen "eindeutige Vorhersagen" treffen (für 0-1 bzw. 2-3 Chips), während die Gläser vom Typ B und C im Grunde eine gleichmäßige Verteilung der Chips ergeben. Bei Wiederholungen des Experiments mit einem festen "echten Glas" (oder wenn wir einen anderen Keks probiert haben) liefert eine gleichmäßige Verteilung der Chips Hinweise auf Gläser des Typs B oder C.

Und vom "praktischen" Standpunkt aus würden Typ B und C eine enorme Stichprobe erfordern, um zwischen ihnen unterscheiden zu können. Die KL-Divergenzen zwischen den beiden Verteilungen sind . Dies ist eine Divergenz, die zwei Normalverteilungen mit der Varianz und einer Differenz der von . Es ist daher unmöglich zu erwarten, dass wir anhand einer Stichprobe unterscheiden können (im Normalfall würden wir etwa 320 Stichproben benötigen, um diesen Unterschied bei einem Signifikanzniveau von 5% festzustellen). Wir können also zu Recht Typ B und Typ C zusammenklappen, bis wir eine ausreichend große Stichprobe haben.KL(B||C)0.006KL(C||B)12×0.006=0.11

Was passiert nun mit diesen glaubwürdigen Intervallen? Wir haben jetzt tatsächlich eine 100% ige Abdeckung von "B oder C"! Was ist mit den frequentistischen Intervallen? Die Abdeckung bleibt unverändert, da alle Intervalle sowohl B als auch C oder keines enthielten, und unterliegt daher weiterhin der Kritik in der Antwort von Keith - 59% und 0% für 3 und 0 beobachtete Chips.

Aber lassen Sie uns hier pragmatisch sein. Wenn Sie etwas in Bezug auf eine Funktion optimieren, kann nicht erwartet werden, dass es für eine andere Funktion gut funktioniert. Sowohl die frequentistischen als auch die bayesianischen Intervalle erreichen jedoch im Durchschnitt das gewünschte Glaubwürdigkeits- / Konfidenzniveau. Wir haben - also hat der Frequentist eine angemessene durchschnittliche Glaubwürdigkeit. Wir haben auch - der Bayesian hat eine angemessene durchschnittliche Abdeckung.(0+99+99+59+99)/5=71.2(98+60+66+97)/4=80.3

Ein weiterer Punkt, den ich hervorheben möchte, ist, dass der Bayesian nicht sagt, dass "der Parameter zufällig ist", indem er eine Wahrscheinlichkeitsverteilung zuordnet. Für den Bayesian (zumindest für mich) ist eine Wahrscheinlichkeitsverteilung eine Beschreibung dessen, was über diesen Parameter bekannt ist. Der Begriff "Zufälligkeit" existiert in der Bayes'schen Theorie nicht wirklich, nur die Begriffe "Wissen" und "Nichtwissen". Die "Bekannten" gehen in die Zustände ein, und die "Unbekannten" sind das, wofür wir die Wahrscheinlichkeiten berechnen, wenn sie von Interesse sind, und sie marginalisieren, wenn sie stören. Ein glaubwürdiges Intervall beschreibt also, was über einen festen Parameter bekannt ist, gemittelt über das, was darüber nicht bekannt ist. Wenn wir also die Position der Person einnehmen würden, die die Keksdose gepackt hat und wusste, dass es sich um Typ A handelt, Ihr Glaubwürdigkeitsintervall wäre einfach [A], unabhängig von der Stichprobe, und unabhängig davon, wie viele Stichproben entnommen wurden. Und sie wären 100% genau!

Ein Konfidenzintervall basiert auf der "Zufälligkeit" oder Variation, die in den verschiedenen möglichen Stichproben vorliegt. Die einzige Variation, die sie berücksichtigen, ist die in einer Stichprobe. Das Konfidenzintervall bleibt also für die Person, die das Keksdöschen verpackt hat, unverändert. Wenn Sie also den Keks mit 1 Chip aus dem Döschen des Typs A ziehen, wird der Frequentist mit 70% iger Konfidenz davon ausgehen, dass es sich um das Keksdöschen handelt nicht A, obwohl sie wissen, dass das Glas Typ A ist! (wenn sie ihre Ideologie beibehielten und ihren gesunden Menschenverstand ignorierten). Um zu sehen, dass dies der Fall ist, beachten Sie, dass sich in dieser Situation nichts an der Stichprobenverteilung geändert hat. Wir haben lediglich die Perspektive einer anderen Person mit "nicht daten" -basierten Informationen zu einem Parameter übernommen.

Konfidenzintervalle ändern sich nur, wenn sich die Daten oder die Modell- / Stichprobenverteilung ändern. Glaubwürdigkeitsintervalle können sich ändern, wenn andere relevante Informationen berücksichtigt werden.

Beachten Sie, dass dieses verrückte Verhalten sicherlich nicht das ist, was ein Befürworter von Konfidenzintervallen tatsächlich tun würde. es zeigt jedoch eine Schwäche in der Philosophie, die der Methode in einem bestimmten Fall zugrunde liegt. Konfidenzintervalle funktionieren am besten, wenn Sie über die in einem Datensatz enthaltenen Informationen hinaus nicht viel über einen Parameter wissen. Darüber hinaus können Glaubwürdigkeitsintervalle die Konfidenzintervalle nur erheblich verbessern, wenn vorherige Informationen vorliegen, die im Konfidenzintervall nicht berücksichtigt werden können, oder wenn es schwierig ist, ausreichende und ergänzende Statistiken zu finden.


Ich kann nicht sagen, dass ich Keiths Erklärung für das Glasbeispiel verstanden habe, eine kurze Frage: Ich wiederhole das Experiment mal, sammle verschiedene Proben, also habe ich jetzt verschiedene CIs berechnet (jede mit 95% Konfidenzniveau), was nun? ist CI? Bedeutet dies, dass 95% der CIs den wahren Wert abdecken sollten? mmmm
Avocado

@loganecolss - das ist in der Tat wahr, aber nur in der Grenze als . Dies entspricht der Standardinterpretation "Wahrscheinlichkeit" = "Langzeitfrequenz", die CIs zugrunde liegt. m
Wahrscheinlichkeitsrechnung

Ja, im Grenzbereich. Dann haben die CIs für ein oder nur ein paar Beispiele keine Bedeutung, oder? Was nützt es dann, den CI zu berechnen, wenn ich keine Tonnen von Proben habe?
Avocado

3
@loganecolss - deshalb bin ich Bayesianer.
Wahrscheinlichkeitslogik

2
@ nazka - irgendwie. Ich würde sagen, es ist immer am besten, einen Bayes'schen Ansatz zu verwenden, unabhängig davon, wie viele Daten Sie haben. Wenn dies durch ein frequentistisches Verfahren gut angenähert werden kann, dann verwenden Sie das. Bayesian ist kein Synonym für langsam.
Wahrscheinlichkeitslogik

6

So wie ich es verstehe: Ein glaubwürdiges Intervall ist eine Aussage über den Wertebereich für die interessierende Statistik, die angesichts der bestimmten Stichprobe von Daten, die wir tatsächlich beobachtet haben, plausibel bleibt. Ein Konfidenzintervall ist eine Angabe der Häufigkeit, mit der der wahre Wert im Konfidenzintervall liegt, wenn das Experiment viele Male wiederholt wird, jedes Mal mit einer anderen Stichprobe von Daten aus derselben Grundgesamtheit.

Normalerweise lautet die Frage, die wir beantworten möchten, "Welche Werte der Statistik stimmen mit den beobachteten Daten überein?". Das glaubwürdige Intervall gibt eine direkte Antwort auf diese Frage. Der wahre Wert der Statistik liegt in einem zu 95% glaubwürdigen Intervall mit einer Wahrscheinlichkeit von 95 %. Das Konfidenzintervall gibt keine direkte Antwort auf diese Frage. Es ist nicht richtig zu behaupten, dass die Wahrscheinlichkeit, dass der wahre Wert der Statistik innerhalb des 95% -Konfidenzintervalls liegt, 95% beträgt (es sei denn, dies fällt zufällig mit dem glaubwürdigen Intervall zusammen). Dies ist jedoch eine sehr häufige Fehlinterpretation eines frequentistischen Konfidenzintervalls, da dies die Interpretation ist, die eine direkte Antwort auf die Frage wäre.

Das Papier von Jayne, das ich in einer anderen Frage diskutiere, gibt ein gutes Beispiel dafür (Beispiel Nr. 5), wo ein perfekt korrektes Konfidenzintervall konstruiert wird, bei dem die bestimmte Stichprobe von Daten, auf der es basiert, jede Möglichkeit des wahren Werts ausschließt der Statistik liegt im 95% -Konfidenzintervall! Dies ist nur dann ein Problem, wenn das Konfidenzintervall fälschlicherweise als Aussage über plausible Werte der Statistik auf der Grundlage der von uns beobachteten Stichprobe interpretiert wird.

Letztendlich handelt es sich um "Pferde für Kurse". Welches Intervall am besten ist, hängt von der Frage ab, die Sie beantworten möchten. Wählen Sie einfach die Methode, die diese Frage direkt beantwortet.

Ich vermute, Konfidenzintervalle sind nützlicher bei der Analyse von [desgierten] wiederholbaren Experimenten (da dies nur die Annahme ist, die dem Konfidenzintervall zugrunde liegt) und glaubwürdigere Intervalle bei der Analyse von Beobachtungsdaten, aber das ist nur eine Meinung (ich verwende beide Arten von Intervallen in meine eigene Arbeit, würde mich aber auch nicht als Experte bezeichnen).


6
Das Problem mit den Konfidenzintervallen bei wiederholten Experimenten ist, dass die Bedingungen des wiederholbaren Experiments gleich bleiben müssen (und wer würde das glauben?), Wohingegen das Bayes'sche Intervall (bei richtiger Verwendung) die Bedingungen für das Experiment erfüllt beobachtete Daten und ermöglicht somit die Berücksichtigung von Änderungen, die in der realen Welt (über Daten) auftreten. Ich denke, es sind die Konditionierungsregeln der Bayes'schen Statistik, die es so schwer machen, die Leistung zu übertreffen (ich denke, es ist unmöglich: nur Äquivalenz kann erreicht werden), und die automatische Maschinerie, mit der dies erreicht wird, lassen es so glatt erscheinen.
Wahrscheinlichkeitslogik

3

Ich fand viele Interpretationen über das Konfidenzintervall und die glaubwürdige Menge falsch. Beispielsweise kann das Konfidenzintervall nicht in diesem Format ausgedrückt werden . Wenn Sie sich die 'Verteilungen' in der Folgerung von Frequentist und Bayesian genau ansehen, werden Sie sehen, dass Frequentist an der Stichprobenverteilung der Daten arbeitet, während Bayesian an der (posterioren) Verteilung des Parameters arbeitet. Sie sind in völlig unterschiedlichen Sample Space und Sigma Algebra definiert.P(θCI)

Ja, Sie können also sagen: "Wenn Sie das Experiment viele Male wiederholen, decken ungefähr 95% der 95% CIs den wahren Parameter ab." Obwohl Sie in Bayes sagen können, dass der wahre Wert der Statistik in einem glaubwürdigen 95% -Intervall mit einer Wahrscheinlichkeit von 95% liegt, ist diese Wahrscheinlichkeit von 95% (in Bayes) selbst nur eine Schätzung. (Denken Sie daran, dass dies auf der Bedingungsverteilung bei diesen spezifischen Daten basiert, nicht auf der Stichprobenverteilung.) Dieser Schätzer sollte aufgrund einer zufälligen Stichprobe einen zufälligen Fehler aufweisen.

Bayesian versuchen, das Fehlerproblem Typ I zu vermeiden. Bayesianer sagen immer, dass es keinen Sinn macht, über Typ-I-Fehler in Bayesian zu sprechen. Dies ist nicht ganz richtig. Statistiker möchten immer die Möglichkeit oder den Fehler messen, dass "Ihre Daten eine Entscheidung nahelegen, die Bevölkerung jedoch etwas anderes vorschlägt". Dies kann Bayesian nicht beantworten (Details hier weggelassen). Leider ist dies möglicherweise das Wichtigste, das ein Statistiker beantworten sollte. Statistiker schlagen nicht nur eine Entscheidung vor. Statistiker sollten auch in der Lage sein, zu klären, inwieweit die Entscheidung möglicherweise falsch ist.

Ich muss die folgende Tabelle und Begriffe erfinden, um das Konzept zu erklären. Hoffe, dies kann helfen, den Unterschied zwischen Konfidenzintervall und glaubwürdigem Satz zu erklären.

Bitte beachten Sie, dass die posteriore Verteilung , wobei aus dem vorherigen . In frequentist ist die Stichprobenverteilung . Die Stichprobenverteilung von ist . Der Index ist die Stichprobengröße. Bitte verwenden Sie nicht die Notation , um die Stichprobenverteilung in frequentist . Sie können über zufällige Daten in sprechen und , aber Sie können nicht über Zufallsdaten in sprechen .P(θ0|Datan)θ0P(θ0)P(Datan;θ)θ^P(θ^n;θ)nP(Datan|θ)P(Datan;θ)P(θ0|Datan)P(θ^n;θ)P(θ0|Datan)

Konfidenzintervall versus glaubwürdiger Satz

Das '???????' erklärt, warum wir Fehler vom Typ I (oder ähnliches) in Bayes nicht auswerten können.

Bitte beachten Sie auch, dass glaubwürdige Mengen unter bestimmten Umständen verwendet werden können, um Konfidenzintervalle zu approximieren. Dies ist jedoch nur eine mathematische Näherung. Die Interpretation sollte mit Frequentist gehen. Die Bayes'sche Interpretation funktioniert in diesem Fall nicht mehr.


Thylacoleos Notation in ist nicht häufig. Dies ist immer noch Bayesian. Diese Notation verursacht ein grundlegendes Problem in der Maßtheorie, wenn es um Frequentisten geht.P(x|θ)

Ich stimme der Schlussfolgerung von Dikran Marsupial zu . Wenn Sie der FDA-Prüfer sind, möchten Sie immer wissen, ob Sie eine Arzneimittelanwendung genehmigen, das Arzneimittel jedoch nicht wirksam ist. Dies ist die Antwort, die Bayesian nicht geben kann, zumindest nicht auf klassisch / typisch Bayesianisch.


3

Generisches und konsistentes Vertrauen und glaubwürdige Regionen. http://dx.doi.org/10.6084/m9.figshare.1528163 mit Code unter http://dx.doi.org/10.6084/m9.figshare.1528187

Bietet eine Beschreibung der glaubwürdigen Intervalle und Konfidenzintervalle für die Auswahl der Mengen zusammen mit dem generischen R-Code, um sowohl die Likelihood-Funktion als auch einige beobachtete Daten zu berechnen. Ferner wird eine Teststatistik vorgeschlagen, die glaubwürdige und vertrauenswürdige Intervalle von optimaler Größe liefert, die miteinander konsistent sind.

Kurz und ohne Formeln. Das Bayes'sche glaubwürdige Intervall basiert auf der Wahrscheinlichkeit der Parameter, die den Daten gegeben sind . Es sammelt die Parameter, die eine hohe Wahrscheinlichkeit haben, in der glaubwürdigen Menge / dem glaubwürdigen Intervall. Das 95% glaubwürdige Intervall enthält Parameter, die zusammen eine Wahrscheinlichkeit von 0,95 haben, wenn die Daten vorliegen.

Das häufigste Konfidenzintervall basiert auf der Wahrscheinlichkeit, dass die Daten mit einigen Parametern angegeben werden . Für jeden (möglicherweise unendlich vielen) Parameter wird zunächst die Datenmenge generiert, die bei diesem Parameter wahrscheinlich beobachtet wird. Anschließend wird für jeden Parameter geprüft, ob die ausgewählten Daten mit hoher Wahrscheinlichkeit die beobachteten Daten enthalten. Wenn die Daten mit hoher Wahrscheinlichkeit die beobachteten Daten enthalten, wird der entsprechende Parameter zum Konfidenzintervall hinzugefügt. Das Konfidenzintervall ist also die Sammlung von Parametern, für die wir nicht ausschließen können, dass der Parameter die Daten generiert hat. Dies gibt eine Regel vor, nach der bei wiederholter Anwendung auf ähnliche Probleme das 95% -Konfidenzintervall in 95% der Fälle den wahren Parameterwert enthält.

95% glaubwürdige Menge und 95% Konfidenz für ein Beispiel aus einer negativen Binomialverteilung 95% Glaubwürdigkeit und 95% Konfidenz für negative Binomialverteilung


Die Beschreibung der Konfidenzintervalle ist nicht korrekt. "95%" ergibt sich aus der Wahrscheinlichkeit, dass eine Stichprobe aus der Grundgesamtheit ein Intervall ergibt, das den wahren Wert des Parameters enthält.
Jlimahaverford

@ jlimahaverford - Die Beschreibung ist korrekt, genau wie Ihre. Um den Link zu dem herzustellen, was Sie beschreiben, fügte ich hinzu: "Dies gibt eine Regel an, die besagt, dass bei wiederholter Anwendung auf ähnliche Probleme das 95% -ige glaubwürdige Intervall in 95% der Fälle den wahren Parameterwert enthält."
user36160

1
Ich habe nicht über Ihre Beschreibung glaubwürdiger Intervalle gesprochen. Ich habe über Konfidenzintervalle gesprochen. Ich stelle jetzt fest, dass Sie in der Mitte Ihres Abschnitts über Vertrauensintervalle wieder über glaubwürdig sprechen, und ich halte dies für einen Fehler. Die wichtige Idee ist: "Wenn dies der wahre Wert des Parameters wäre, wie hoch ist die Wahrscheinlichkeit, dass ich eine Stichprobe mit diesem oder einem höheren Wert ziehe. Wenn die Antwort größer als 5% ist, liegt sie im Konfidenzintervall."
Jlimahaverford

@ jlimahaverford - einverstanden und korrigiert - Danke.
user36160

hmm, ich sehe es nicht korrigiert.
Jlimahaverford

1

Dies ist eher ein Kommentar, aber zu lang. In dem folgenden Artikel: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford hat den folgenden interessanten Kommentar:

Während all diese wirklich aufregenden Verwendungszwecke für Statistiken genutzt wurden, banden sich die meisten Statistiker unter der Leitung von Sir RA Fisher die Hände hinter den Rücken und bestanden darauf, dass Statistiken nur in vollständig reproduzierbaren Situationen und nur unter Verwendung von Statistiken verwendet werden könnten die empirischen Daten. Dies ist die sogenannte "frequentistische" Schule, die mit der Bayesianischen Schule kämpfte, die glaubte, dass die Prioritäten verwendet werden könnten und die Verwendung statistischer Folgerungen stark erweitert wurde. Dieser Ansatz bestreitet, dass statistische Inferenz irgendetwas mit realem Denken zu tun haben kann, da reale Situationen immer in kontextbezogenen Variablen begraben sind und nicht wiederholt werden können. Glücklicherweise starb die Bayesianische Schule nicht vollständig, was von DeFinetti, ET Jaynes und anderen weitergeführt wurde.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.