Vorsichtsmaßnahme: Bei dieser Antwort wird davon ausgegangen, dass es sich bei der Frage um die Interpretation von Bootstrap-p-Werten und CIs handelt. Ein Vergleich zwischen einem herkömmlichen p-Wert (nicht gebootet) und einem gebooteten CI wäre ein anderes Problem.
Bei einem herkömmlichen (nicht gebooteten) t-Test sagen Ihnen der 95% CI und die Position des p-Werts relativ zum 0,05-Grenzwert für die Signifikanz immer dasselbe. Das liegt daran, dass beide auf denselben Informationen basieren: der t-Verteilung für Ihre Freiheitsgrade und dem Mittelwert und dem Standardfehler, die in Ihrer Stichprobe beobachtet wurden (oder der Unterschied zwischen Mittelwert und Standardfehler im Fall eines t- mit zwei Stichproben). Prüfung). Wenn sich Ihr CI nicht mit 0 überschneidet, ist Ihr p-Wert notwendigerweise <0,05 - es sei denn, es liegt natürlich ein Fehler in der Software oder ein Benutzerfehler bei der Implementierung oder Interpretation des Tests vor.
Bei einem Bootstrap-T-Test werden sowohl der CI- als auch der p-Wert direkt aus der durch das Bootstrapping erzeugten empirischen Verteilung berechnet: Der p-Wert gibt einfach an, wie viel Prozent der Bootstrap-Gruppenunterschiede extremer sind als der ursprünglich beobachtete Unterschied. Der 95% CI ist der mittlere 95% der Bootstrap-Gruppenunterschiede. Es ist nicht unmöglich, dass der p-Wert und das CI in einem Bootstrap-Test nicht über die Signifikanz übereinstimmen.
Akzeptieren oder lehnen Sie die Nullhypothese ab?
Im Kontext eines Bootstrap-Tests spiegelt der p-Wert (im Vergleich zum CI) den Geist des Hypothesentests direkter wider. Daher ist es am sinnvollsten, sich auf diesen Wert zu verlassen, um zu entscheiden, ob die Null bei abgelehnt werden soll oder nicht Ihr gewünschtes Alpha (in der Regel .05). In Ihrem Fall, in dem der p-Wert kleiner als 0,05 ist, der 95% -KI jedoch Null enthält, empfehle ich, die Nullhypothese abzulehnen .
All dies überspringt die großen Ideen darüber, wie wichtig "Signifikanz" wirklich sein sollte und ob das Testen der Signifikanz von Nullhypothesen tatsächlich so nützlich für ein Werkzeug ist oder nicht. Kurz gesagt, ich empfehle immer, jede Analyse von Signifikanztests durch eine Schätzung der Effektgrößen zu ergänzen (für einen T-Test mit zwei Stichproben ist die beste Schätzung der Effektgröße wahrscheinlich Cohens d ), was einen zusätzlichen Kontext zum besseren Verständnis Ihrer Ergebnisse bieten kann.
In Verbindung stehender hilfreicher Beitrag: Was bedeutet ein Konfidenzintervall, das aus Bootstrap-Resamples entnommen wird?