Die grobe Antwort auf die Frage lautet, dass Sie mit einem 95% -Konfidenzintervall zu 95% sicher sein können, dass der wahre Parameterwert innerhalb des Intervalls liegt. Diese grobe Antwort ist jedoch sowohl unvollständig als auch ungenau.
Die Unvollständigkeit liegt in der Tatsache, dass nicht klar ist, dass "95% zuversichtlich" irgendetwas Konkretes bedeutet, oder wenn dies der Fall ist, würde diese konkrete Bedeutung auch von einer kleinen Stichprobe von Statistikern nicht allgemein anerkannt. Die Bedeutung von Vertrauen hängt davon ab, mit welcher Methode das Intervall ermittelt wurde und welches Inferenzmodell verwendet wird (was hoffentlich weiter unten klarer wird).
Die Ungenauigkeit liegt in der Tatsache, dass viele Konfidenzintervalle nichts über die Position des wahren Parameterwerts für den bestimmten experimentellen Fall aussagen, der das Konfidenzintervall ergab! Das wird für viele überraschend sein, aber es folgt direkt aus der Neyman-Pearson-Philosophie, die in diesem Zitat aus ihrer Arbeit von 1933 "Über das Problem der effizientesten Tests statistischer Hypothesen" klar zum Ausdruck kommt:
Wir neigen zu der Annahme, dass in Bezug auf eine bestimmte Hypothese kein auf der Wahrscheinlichkeitstheorie basierender Test für sich allein einen wertvollen Beweis für die Wahrheit oder die Falschheit dieser Hypothese liefern kann.
Aber wir können den Zweck von Tests aus einem anderen Blickwinkel betrachten. Ohne zu wissen, ob jede einzelne Hypothese richtig oder falsch ist, können wir nach Regeln suchen, die unser Verhalten in Bezug auf sie bestimmen. Dabei stellen wir sicher, dass wir auf lange Sicht nicht zu oft falsch liegen werden.
Intervalle, die auf der "Inversion" von NP-Hypothesentests basieren, erben daher von diesem Test die Natur, Langzeitfehlereigenschaften zu kennen, ohne Rückschlüsse auf die Eigenschaften des Experiments zuzulassen, das sie ergab! Ich verstehe, dass dies vor induktiven Schlüssen schützt, die Neyman anscheinend für einen Gräuel hielt.
Neyman beansprucht in seiner Biometrika-Arbeit von 1941 "Fiducial argument and the theory of confidence interval" ausdrücklich den Begriff "Konfidenzintervall" und den Ursprung der Theorie der Konfidenzintervalle. In gewissem Sinne spielt also alles, was ein Konfidenzintervall ist, nach seinen Regeln, und so kann die Bedeutung eines einzelnen Intervalls nur als langfristige Rate ausgedrückt werden, in der Intervalle, die mit dieser Methode berechnet werden, die relevante Wahrheit enthalten (abdecken) Parameterwert.
Wir müssen jetzt die Diskussion ankurbeln. Ein Strang folgt dem Begriff der 'Abdeckung', und der andere folgt nicht-neymanischen Intervallen, die wie Konfidenzintervalle sind. Ersteres werde ich aufschieben, damit ich diesen Beitrag vervollständigen kann, bevor er zu lang wird.
Es gibt viele verschiedene Ansätze, die Intervalle liefern, die als nicht-neymanische Konfidenzintervalle bezeichnet werden könnten. Das erste davon sind Fischers Bezugsintervalle. (Das Wort 'fiducial' mag viele erschrecken und bei anderen abstoßende Smirks hervorrufen, aber ich werde das beiseite lassen ...) Für einige Arten von Daten (z. B. normal mit unbekannter Populationsvarianz) sind die nach der Fisher-Methode berechneten Intervalle zahlenmäßig identisch mit den Intervalle, die nach Neymans Methode berechnet würden. Sie fordern jedoch zu gegensätzlichen Interpretationen auf. Neymansche Intervalle spiegeln nur die Langzeitbedeckungseigenschaften der Methode wider, wohingegen die Fisher-Intervalle eine induktive Inferenz in Bezug auf die wahren Parameterwerte für das jeweilige durchgeführte Experiment unterstützen sollen.
Die Tatsache, dass ein Satz von Intervallgrenzen von Methoden stammen kann, die auf einem von zwei philosophisch unterschiedlichen Paradigmen basieren, führt zu einer wirklich verwirrenden Situation - die Ergebnisse können auf zwei widersprüchliche Arten interpretiert werden. Ausgehend vom Vergleichsargument besteht eine Wahrscheinlichkeit von 95%, dass ein bestimmtes Vergleichsintervall von 95% den wahren Parameterwert enthält. Aus der Neyman-Methode wissen wir nur, dass 95% der auf diese Weise berechneten Intervalle den wahren Parameterwert enthalten und müssen verwirrende Dinge über die Wahrscheinlichkeit sagen, dass das Intervall, das den wahren Parameterwert enthält, unbekannt, aber entweder 1 oder 0 ist.
Zu einem großen Teil hat Neymans Ansatz über Fisher's geherrscht. Das ist meiner Meinung nach am bedauerlichsten, weil es nicht zu einer natürlichen Interpretation der Intervalle führt. (Lesen Sie das obige Zitat von Neyman und Pearson noch einmal durch und prüfen Sie, ob es mit Ihrer natürlichen Interpretation der experimentellen Ergebnisse übereinstimmt. Dies ist höchstwahrscheinlich nicht der Fall.)
Wenn ein Intervall korrekt in Bezug auf globale Fehlerraten, aber auch in Bezug auf lokale Inferenzraten interpretiert werden kann, sehe ich keinen guten Grund, Intervallbenutzer von der natürlicheren Interpretation abzuhalten, die Letzteres bietet. Mein Vorschlag ist daher, dass die richtige Interpretation eines Konfidenzintervalls BEIDES von Folgendem ist:
Neymanian: Dieses 95% -Intervall wurde mit einer Methode konstruiert, die auf lange Sicht zu 95% Intervalle liefert, die den wahren Parameterwert abdecken (... unserer statistischen Erfahrung).
Fisherian: Dieses 95% -Intervall deckt mit einer Wahrscheinlichkeit von 95% den wahren Parameterwert ab.
(Bayesianische und Likelihood-Methoden ergeben auch Intervalle mit wünschenswerten frequentistischen Eigenschaften. Solche Intervalle führen zu leicht unterschiedlichen Interpretationen, die sich beide wahrscheinlich natürlicher anfühlen als die Neymanianer.)