Dies ist etwas, das schwer zu verstehen sein kann:
- wenn im Durchschnitt 95% aller Konfidenzintervalle den Parameter enthalten
- und ich habe ein bestimmtes Konfidenzintervall
- warum liegt die wahrscheinlichkeit, dass dieses intervall den parameter enthält, nicht auch bei 95%?
Ein Konfidenzintervall bezieht sich auf das Stichprobenverfahren. Wenn Sie viele Stichproben nehmen und für jede Stichprobe ein Konfidenzintervall von 95% berechnen würden, würden Sie feststellen, dass 95% dieser Intervalle den Populationsmittelwert enthalten.
Dies ist beispielsweise für Qualitätsabteilungen in der Industrie nützlich. Diese Leute nehmen viele Proben und sind jetzt zuversichtlich, dass die meisten ihrer Schätzungen der Realität ziemlich nahe kommen werden. Sie wissen, dass 95% ihrer Schätzungen ziemlich gut sind, aber sie können das nicht über jede einzelne Schätzung sagen.
Vergleichen Sie dies mit Würfeln: Wenn Sie 600 (faire) Würfel würfeln würden, wie viele 6 würden Sie werfen? Ihre beste Schätzung ist * 600 = 100.16
Wenn Sie jedoch EINEN Würfel geworfen haben, ist es sinnlos zu sagen: "Es gibt eine Wahrscheinlichkeit von 1/6 oder 16,6%, dass ich jetzt eine 6 geworfen habe". Warum? Weil der Würfel entweder eine 6 oder eine andere Figur zeigt. Sie haben eine 6 geworfen oder nicht. Die Wahrscheinlichkeit ist also 1 oder 0. Die Wahrscheinlichkeit kann nicht .16
Wenn ein Bayesianer vor dem Wurf gefragt wird, wie hoch die Wahrscheinlichkeit ist, eine 6 mit EINEM Würfel zu werfen, antwortet er mit " " (basierend auf vorherigen Informationen: Jeder weiß, dass ein Würfel 6 Seiten und eine gleiche Chance hat von einem von ihnen fallen), aber ein Frequentist würde sagen "Keine Ahnung", weil Frequentismus nur auf den Daten basiert, nicht auf Prioritäten oder irgendwelchen externen Informationen.16
Wenn Sie nur eine Stichprobe (also ein Konfidenzintervall) haben, können Sie nicht sagen, wie wahrscheinlich es ist, dass der Mittelwert der Grundgesamtheit in diesem Intervall liegt. Der Mittelwert (oder ein beliebiger Parameter) ist entweder enthalten oder nicht. Die Wahrscheinlichkeit ist entweder 1 oder 0.
Es ist auch nicht korrekt, dass Werte innerhalb des Konfidenzintervalls wahrscheinlicher sind als solche außerhalb des Konfidenzintervalls. Ich habe eine kleine Illustration gemacht; alles wird in ° C gemessen. Denken Sie daran, dass Wasser bei 0 ° C gefriert und bei 100 ° C kocht.
Der Fall: In einem kalten See möchten wir die Temperatur des Wassers schätzen, das unter dem Eis fließt. Wir messen die Temperatur an 100 Orten. Hier sind meine Daten:
- 0,1 ° C (gemessen an 49 Orten);
- 0,2 ° C (auch an 49 Standorten);
- 0 ° C (an 1 Stelle. Dies war Wasser kurz vor dem Gefrieren);
- 95 ° C (an einem Ort gibt es eine Fabrik, die illegal sehr heißes Wasser in den See schüttet).
- Mittlere Temperatur: 1,1 ° C;
- Standardabweichung: 1,5 ° C;
- 95% -CI: (-0,8ºC + 3,0ºC).
Die Temperaturen in diesem Konfidenzintervall sind definitiv NICHT wahrscheinlicher als die außerhalb des Konfidenzintervalls. Die Durchschnittstemperatur des fließenden Wassers in diesem See KANN NICHT kälter als 0 ° C sein, sonst wäre es nicht Wasser, sondern Eis. Ein Teil dieses Konfidenzintervalls (nämlich der Abschnitt von -0,8 bis 0) hat tatsächlich eine Wahrscheinlichkeit von 0% , den wahren Parameter zu enthalten.
Fazit: Konfidenzintervalle sind ein häufig anzutreffendes Konzept und basieren daher auf der Idee wiederholter Stichproben. Wenn viele Forscher Proben von diesem See entnehmen würden und alle diese Forscher Konfidenzintervalle berechnen würden, würden 95% dieser Intervalle den wahren Parameter enthalten. Für ein einziges Konfidenzintervall ist es jedoch unmöglich zu sagen, wie wahrscheinlich es ist, dass es den wahren Parameter enthält.