Kontext
Dies ist dieser Frage etwas ähnlich , aber ich denke nicht, dass es sich um ein genaues Duplikat handelt.
Wenn Sie nach Anweisungen zum Durchführen eines Bootstrap-Hypothesentests suchen, wird normalerweise angegeben, dass es in Ordnung ist, die empirische Verteilung für Konfidenzintervalle zu verwenden, dass Sie jedoch korrekt von der Verteilung unter der Nullhypothese booten müssen, um einen p- zu erhalten. Wert. Sehen Sie sich als Beispiel die akzeptierte Antwort auf diese Frage an . Eine allgemeine Suche im Internet scheint meist ähnliche Antworten zu liefern.
Der Grund dafür, dass kein p-Wert basierend auf der empirischen Verteilung verwendet wird, ist, dass wir die meiste Zeit keine Übersetzungsinvarianz haben.
Beispiel
Lassen Sie mich ein kurzes Beispiel geben. Wir haben eine Münze und möchten einen einseitigen Test durchführen, um festzustellen, ob die Häufigkeit der Köpfe größer als 0,5 ist
Wir führen Versuche durch und erhalten Köpfe. Der wahre p-Wert für diesen Test wäre .
Wenn wir dagegen unsere 14 von 20 Köpfen booten, nehmen wir effektiv eine Stichprobe aus der Binomialverteilung mit und . Wenn wir diese Verteilung durch Subtrahieren von 0,2 verschieben, erhalten wir ein kaum signifikantes Ergebnis, wenn wir unseren beobachteten Wert von 0,7 gegen die erhaltene empirische Verteilung testen.
In diesem Fall ist die Diskrepanz sehr gering, wird jedoch größer, wenn die Erfolgsrate, gegen die wir testen, nahe bei 1 liegt.
Frage
Lassen Sie mich nun zum eigentlichen Punkt meiner Frage kommen: Der gleiche Fehler gilt auch für Konfidenzintervalle. Wenn ein Konfidenzintervall das angegebene Konfidenzniveau hat, entspricht das Konfidenzintervall, das den Parameter unter der Nullhypothese nicht enthält, der Zurückweisung der Nullhypothese bei einem Signifikanzniveau von .
Warum werden die auf der empirischen Verteilung basierenden Konfidenzintervalle weitgehend akzeptiert und der p-Wert nicht?
Gibt es einen tieferen Grund oder sind die Menschen mit Konfidenzintervallen nicht so konservativ?
In dieser Antwort gibt Peter Dalgaard eine Antwort, die meiner Argumentation zuzustimmen scheint. Er sagt:
An dieser Argumentation ist nichts besonders Falsches oder zumindest nicht (viel) schlechter als die Berechnung des CI.
Woher kommt das (viel)? Dies impliziert, dass das Erzeugen von p-Werten auf diese Weise etwas schlechter ist, aber nicht näher darauf eingeht.
Abschließende Gedanken
Auch in einer Einführung in den Bootstrap von Efron und Tibshirani widmen sie den Konfidenzintervallen viel Raum, aber nicht den p-Werten, es sei denn, sie werden unter einer korrekten Nullhypothesenverteilung erzeugt, mit Ausnahme einer Wegwerflinie über die allgemeine Äquivalenz von Konfidenzintervalle und p-Werte im Kapitel über Permutationstests.
Kommen wir auch zu der ersten Frage zurück, die ich verlinkt habe. Ich stimme der Antwort von Michael Chernick zu, aber er argumentiert auch, dass sowohl Konfidenzintervalle als auch p-Werte, die auf der empirischen Bootstrap-Verteilung basieren, in einigen Szenarien gleichermaßen unzuverlässig sind. Es erklärt nicht, warum Sie viele Leute finden, die Ihnen sagen, dass die Intervalle in Ordnung sind, die p-Werte jedoch nicht.