Wann sind Konfidenzintervalle sinnvoll?

30

Wenn ich richtig verstehe, ist ein Konfidenzintervall eines Parameters ein Intervall, das mit einer Methode erstellt wurde, die Intervalle liefert, die den wahren Wert für einen bestimmten Anteil von Stichproben enthalten. Das "Vertrauen" bezieht sich also eher auf die Methode als auf das Intervall, das ich aus einer bestimmten Stichprobe berechne.

Als Benutzer von Statistiken habe ich mich immer betrogen gefühlt, da der Raum aller Stichproben hypothetisch ist. Ich habe nur ein Beispiel und möchte wissen, was dieses Beispiel über einen Parameter aussagt.

Ist dieses Urteil falsch? Gibt es, zumindest unter bestimmten Umständen, Betrachtungsweisen für Konfidenzintervalle, die für Benutzer von Statistiken von Bedeutung wären?

[Diese Frage ergibt sich aus Überlegungen nach dem Auflösen von Konfidenzintervallen in einer math.se-Antwort: https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

confidence-interval interpretation

— Jyotirmoy Bhattacharya
quelle

15

Ich stelle mir CIs gerne als eine Möglichkeit vor, dem Hypothesentest (HT) -Framework zu entkommen, zumindest dem Framework für binäre Entscheidungen, das Neymans Ansatz folgt , und in gewisser Weise mit der Messtheorie Schritt zu halten. Genauer gesagt, ich betrachte sie als zuverlässiger (zum Beispiel als Mittelwertdifferenz) und umgekehrt als hypothetisch-deduktives Denken mit seinen Fallstricken (wir können die Null nicht akzeptieren, die Alternative ist) oft stochastisch usw.). Sowohl bei der Intervallschätzung als auch bei der HT müssen wir uns die meiste Zeit auf Verteilungsannahmen stützen (z. B. eine Stichprobenverteilung unter ), die Rückschlüsse auf die allgemeine Bevölkerung oder auf eine repräsentative Stichprobe (zumindest beim Frequentisten) zulässt Ansatz). $H_0$

In vielen Zusammenhängen sind CIs komplementär zu normalen HT und ich betrachte sie wie im folgenden Bild (es steht unter ): $H_0$

Alt-Text

Das heißt, unter dem HT-Framework (links) sehen Sie, wie weit Ihre Statistik vom Nullpunkt entfernt ist, während Sie bei CIs (rechts) den Null-Effekt "von Ihrer Statistik" in gewissem Sinne betrachten.

Beachten Sie auch, dass für bestimmte Arten von Statistiken, wie Odds-Ratio, HT oft bedeutungslos sind und es besser ist, das zugehörige CI zu betrachten, das asymmetrisch ist, und gegebenenfalls relevantere Informationen zur Richtung und Genauigkeit der Zuordnung bereitzustellen.

— chl
quelle

Warum sagen Sie, sind Hypothesentests für Odds Ratios oft bedeutungslos, genauso wie jede andere Effektschätzung? Ich möchte stattdessen betonen, dass Konfidenzintervalle für Quotenverhältnisse und andere Schätzungen mit asymmetrischen Stichprobenverteilungen in endlichen Stichproben nützlicher sind als Standardfehler.

— am

@onestop Nun, ich habe zum Teil darüber nachgedacht, was Sie über "asymmetrische Stichprobenverteilungen ..." sagen (und anscheinend war mir das nicht so klar), aber auch darüber, dass wir uns in epidemiologischen Studien im Allgemeinen am meisten für CIs interessieren (das) ist, wie genau ist unsere Schätzung) als HT.

— CHL

+1. Das erinnert mich daran, dass ich Ihre Skripte verwendet habe, um Asymptote zu lernen, indem ich hineingesprungen bin und Dinge geändert und verschiedene Dinge ausprobiert habe. Nochmals vielen Dank dafür, sehr hilfreich, um loszulegen.

— ars

@ars Eigentlich scheine ich mich zu erinnern, dass dieses Bild mit PStricks gemacht wurde. Auf jeden Fall ist piprime.fr/asymptote ein guter Ausgangspunkt für Asymptote .

— Chl

@chl, das ist vielleicht ein Thema, aber kannst du mir bitte sagen, ob du diese Grafiken in R erstellt hast?

— Suncoolsu

7

Ein alternativer Ansatz, der für Ihr zweites F relevant ist: "Gibt es Möglichkeiten, Konfidenzintervalle zumindest unter bestimmten Umständen zu betrachten, die für Benutzer von Statistiken von Bedeutung sind?":

Sie sollten sich die Bayesianische Folgerung und die daraus resultierenden glaubwürdigen Intervalle ansehen . Ein zu 95% glaubwürdiges Intervall kann als Intervall interpretiert werden, von dem Sie glauben, dass es mit einer Wahrscheinlichkeit von 95% den wahren Parameterwert enthält. Der Preis, den Sie zahlen, besteht darin, dass Sie eine vorherige Wahrscheinlichkeitsverteilung für die Werte vornehmen müssen, von denen Sie glauben, dass sie für den wahren Parameter wahrscheinlich sind, bevor Sie die Daten erfassen. Und Ihre Prioritäten können sich von denen anderer unterscheiden, sodass sich auch dann glaubwürdige Intervalle ergeben können, wenn Sie dieselben Daten verwenden.

Dies ist nur mein kurzer und grober Versuch, zusammenzufassen! Ein gutes aktuelles Lehrbuch mit praktischem Schwerpunkt ist:

Andrew Gelman, John B. Carlin, Hal S. Stern und Donald B. Rubin. "Bayesian Data Analysis" (2. Auflage). Chapman & Hall / CRC, 2003. ISBN 978-1584883883

— ein Stop
quelle

Vielen Dank. Aber was ist mit den Konfidenzintervallen der Frequentisten? Gibt es überhaupt Umstände, unter denen sie relevant wären?

— Jyotirmoy Bhattacharya

Ich glaube, dass es kein Problem ist, unterschiedliche Prioritäten zu haben (zumindest vom objektiven Bayes-Standpunkt aus), wenn Sie unterschiedliche Kenntnisse über die jeweilige Situation haben. Wir wollten die Prioren als eine Möglichkeit sehen, unsere A-priori-Informationen zu verbreiten. Ich weiß, dass es nicht einfach ist ...

— Teucer

@Jyotirmoy Über Bayesian vs. Frequentist Ansätze wurden hier interessante Punkte gemacht: stats.stackexchange.com/questions/1611/…

— chl

6

Ich denke, die Prämisse dieser Frage ist fehlerhaft, weil sie die Unterscheidung zwischen dem Ungewissen und dem Bekannten leugnet .

Die Beschreibung eines Münzwurfs liefert eine gute Analogie. Bevor die Münze geworfen wird, ist das Ergebnis ungewiss. danach ist es nicht mehr "hypothetisch". Die Verwechslung dieser vollendeten Tatsachen mit der tatsächlichen Situation, die wir verstehen möchten (das Verhalten der Münze oder Entscheidungen, die aufgrund ihres Ergebnisses zu treffen sind), leugnet im Wesentlichen die Rolle der Wahrscheinlichkeit für das Verständnis der Welt.

Dieser Kontrast wird in einem experimentellen oder regulatorischen Bereich deutlich hervorgehoben. In solchen Fällen wissen der Wissenschaftler oder die Aufsichtsbehörde, dass sie mit Situationen konfrontiert werden, deren Ergebnisse zu einem beliebigen Zeitpunkt im Voraus nicht bekannt sind. Sie müssen jedoch wichtige Bestimmungen treffen, z (für Drogentests, Arbeitssicherheit, Umweltstandards usw.). Diese Personen und die Institutionen, für die sie arbeiten, benötigen Methoden und Kenntnisse der wahrscheinlichkeitstheoretischen Eigenschaften dieser Methoden , um optimale und vertretbare Strategien zu entwickeln, z. B. gute Versuchspläne und faire Entscheidungsverfahren, bei denen so wenig wie möglich Fehler auftreten.

Konfidenzintervalle passen trotz ihrer klassisch schlechten Rechtfertigung in diesen entscheidungswissenschaftlichen Rahmen. Wenn eine Methode zum Erstellen eines zufälligen Intervalls eine Kombination guter Eigenschaften aufweist, z. B. Sicherstellen einer minimalen erwarteten Abdeckung des Intervalls und Minimieren der erwarteten Länge des Intervalls - beide Eigenschaften von vornherein und nicht von hinten -, dann ist sie vorbei In einer langen Karriere bei der Anwendung dieser Methode können wir die mit den von dieser Methode angezeigten Aktionen verbundenen Kosten minimieren.

— whuber
quelle

Geben Sie ein Beispiel für die Verwendung eines Konfidenzintervalls, um eine Entscheidung zu treffen. Oder, noch besser, vergleichen Sie zwei Konfidenzintervalle und wie Sie mit jedem unterschiedliche Entscheidungen treffen würden, während Sie sich vollständig an den häufig auftretenden Rahmen halten.

— BrainPermafrost

@Brain Jedes einführende Statistik-Lehrbuch enthält solche Beispiele. Einer, der unverfroren häufig auftritt, ist Freedman, Pisani und Purves, Statistics (jede Ausgabe).

— Whuber

6

Sie haben Recht, wenn Sie sagen, dass die 95% -Konfidenzintervalle Dinge sind, die sich aus der Verwendung einer Methode ergeben , die in 95% der Fälle funktioniert, und nicht aus jedem einzelnen Intervall mit einer Wahrscheinlichkeit von 95%, den erwarteten Wert zu enthalten.

"Die logische Grundlage und Interpretation von Vertrauensgrenzen ist schon jetzt umstritten." {David Colquhoun, 1971, Vorlesungen über Biostatistik}

Dieses Zitat stammt aus einem statistischen Lehrbuch, das 1971 veröffentlicht wurde, aber ich würde behaupten, dass es 2010 immer noch zutrifft. Die Kontroverse ist wahrscheinlich am heftigsten im Fall von Konfidenzintervallen für binomiale Verhältnisse. Es gibt viele konkurrierende Methoden zur Berechnung dieser Konfidenzintervalle, aber alle sind in einer oder mehreren Richtungen ungenau, und selbst die Methode mit der schlechtesten Leistung hat Befürworter unter den Lehrbuchautoren. Selbst so genannte "genaue" Intervalle liefern nicht die Eigenschaften, die von Konfidenzintervallen erwartet werden.

In einem Artikel für Chirurgen (allgemein bekannt für ihr Interesse an Statistik!) Haben John Ludbrook und ich die routinemäßige Verwendung von Konfidenzintervallen unter Verwendung eines einheitlichen Bayesianischen Prioritätswerts argumentiert, da solche Intervalle so häufig sind wie jede andere Methode (im Durchschnitt) genau 95% Deckung über alle wahren Anteile), aber vor allem viel bessere Deckung über alle beobachteten Anteile (genau 95% Deckung). Das Papier ist aufgrund seiner Zielgruppe nicht sehr detailliert und kann daher nicht alle Statistiker überzeugen, aber ich arbeite an einem Folgedokument mit allen Ergebnissen und Begründungen.

Dies ist ein Fall, in dem der Bayes'sche Ansatz sowohl frequentistische Eigenschaften als auch den frequentistischen Ansatz aufweist, was ziemlich häufig vorkommt. Die Annahme eines einheitlichen Prior ist unproblematisch, da in jede Berechnung der Frequenzdeckung, auf die ich gestoßen bin, eine einheitliche Verteilung der Bevölkerungsanteile eingebaut ist.

Sie fragen: "Gibt es Möglichkeiten, Konfidenzintervalle zumindest unter bestimmten Umständen zu betrachten, die für Benutzer von Statistiken von Bedeutung sind?" Meine Antwort lautet also, dass man für binomiale Konfidenzintervalle Intervalle erhalten kann, die den Populationsanteil für alle beobachteten Anteile genau 95% der Zeit enthalten. Das ist ein Ja. Die konventionelle Verwendung von Konfidenzintervallen erwartet jedoch eine Abdeckung für alle Bevölkerungsanteile, und dafür lautet die Antwort "Nein!".

Die Länge der Antworten auf Ihre Frage und die verschiedenen Antworten darauf lassen darauf schließen, dass Vertrauensintervalle häufig missverstanden werden. Wenn wir unser Ziel von der Erfassung aller wahren Parameterwerte zur Erfassung der wahren Parameterwerte für alle Stichprobenwerte ändern, wird dies möglicherweise einfacher, da die Intervalle dann so gestaltet werden, dass sie direkt für die beobachteten Werte relevant sind und nicht für die Leistung der Methode an sich.

— Michael Lew
quelle

5

Dies ist eine großartige Diskussion. Ich bin der Meinung, dass Bayes'sche glaubwürdige Intervalle und Likelihood-Support-Intervalle der richtige Weg sind, ebenso wie Bayes'sche hintere Wahrscheinlichkeiten von Ereignissen von Interesse (z. B. ein Medikament ist wirksam). Die Substitution von P-Werten durch Konfidenzintervalle ist jedoch ein großer Vorteil. Praktisch jede Ausgabe der besten medizinischen Fachzeitschriften wie NEJM und JAMA hat ein Papier mit dem Problem "Fehlen von Beweisen ist kein Beweis für Abwesenheit" in ihren Abstracts. Die Verwendung von Konfidenzintervallen wird solche Fehler weitgehend verhindern. Ein großartiger kleiner Text ist http://www.amazon.com/Statistics-Confidence-Intervals-Statistical-Guidelines/dp/0727913751

— Frank Harrell
quelle

3

Um Ihre Frage direkt zu beantworten: Angenommen, Sie möchten mit einer Maschine eine Müslischachtel mit einer bestimmten Menge Müsli füllen. Natürlich möchten Sie die Box nicht über- oder unterfüllen. Sie möchten die Zuverlässigkeit der Maschine beurteilen. Sie führen eine Reihe von Tests wie folgt durch: (a) Befüllen Sie die Schachtel mit der Maschine und (b) Messen Sie die in die Schachtel eingefüllte Getreidemenge.

Mit den gesammelten Daten erstellen Sie ein Konfidenzintervall für die Getreidemenge, die die Maschine wahrscheinlich in das Feld einfüllt. Aus diesem Konfidenzintervall geht hervor, dass das erhaltene Intervall mit einer Wahrscheinlichkeit von 95% die tatsächliche Getreidemenge enthält, die von der Maschine in die Schachtel gegeben wird. Wie Sie sagen, hängt die Interpretation des Konfidenzintervalls von hypothetischen, unsichtbaren Stichproben ab, die von der betrachteten Methode generiert werden. Aber genau das wollen wir in unserem Kontext. In dem obigen Zusammenhang wir werden das Gerät verwenden wiederholt das Feld zu füllen und so kümmern wir uns um hypothetische, ungesehen Realisierungen der Menge an Getreide die Maschine in der Box füllt.

Um vom obigen Kontext abzuweichen: Ein Konfidenzintervall gibt uns die Garantie, dass bei wiederholter Verwendung der untersuchten Methode (im obigen Beispiel method = machine) eine Wahrscheinlichkeit von 95% besteht, dass das Konfidenzintervall den wahren Parameter aufweist .

2

@Srikant. Nein! So beißen klassische CIs. Nehmen wir der Einfachheit halber an, dass die in eine Schachtel eingefüllte Getreidemenge normal ist mit dem Mittelwert und der Varianz . Das Konfidenzintervall von basiert auf seiner unterschiedlichen Stichprobenverteilung . Ein bestimmtes CI kann aufgrund von Stichprobenfehlern weit davon entfernt sein und hat dann keinen Einfluss auf die Leistung der Maschine. Wenn Sie wiederholt Stichproben erstellen und CIs bilden, stimmen 95% davon, aber das ist kein Trost.

μ

$\mu$

σ^{2}

$\sigma^2$

μ

$\mu$

— Jyotirmoy Bhattacharya

1

@Jyotirmoy Natürlich kann ein bestimmtes CI aus dem Ruder laufen. Mit anderen Worten, es besteht eine Wahrscheinlichkeit von 5%, dass das CI nicht den wahren Wert enthält. Die Interpretation, die ich gegeben habe, stimmt jedoch mit der tatsächlichen Konstruktion von CIs überein. Wir stellen uns vor, die Methode wiederholt zu verwenden und den CI so zu konstruieren, dass die Wahrscheinlichkeit, dass der beobachtete CI den wahren Wert enthält, 0,95 beträgt. Beachten Sie, dass meine Antwort nichts über die Wahrscheinlichkeit aussagt, wo der wahre Wert tatsächlich liegt, da dies eine Aussage ist, die nur mit glaubwürdigen Intervallen und nicht mit Konfidenzintervallen getroffen werden kann.

1

@Jyotirmoy Unter- / Obergrenzen für einen % -KI eines beobachteten Mittelwerts werden unter berechnet, wobei die Stichprobenverteilung eines Mittelwerts (oder eine Differenz der Mittelwerte) diejenige ist, die Sie in Abhängigkeit von Ihrer Stichprobe angenommen haben ( oder Verteilung). Ich fand Srikants Antwort richtig und seine Interpretation scheint nicht über das Experiment hinauszugehen, das gerahmt wurde. CIs sind Zufallsvariablen.

(100 - α)

$(100-\alpha)$

H_{0}

$H_0$

t

$t$

z

$z$

— Chl

@Srikant. Ich habe vielleicht "method = machine" in der Antwort falsch verstanden. Ich dachte, Sie sagten, dass 95% aller Kartons, die vom Fließband kommen, Gewichte innerhalb des 95% -Konfidenzintervalls haben, das von einer bestimmten Stichprobe der Kartons abgeleitet wird.

— Jyotirmoy Bhattacharya