Auf welche Datenbedingungen sollten wir achten, wenn p-Werte möglicherweise nicht die beste Methode zur Bestimmung der statistischen Signifikanz sind? Gibt es bestimmte Problemtypen, die in diese Kategorie fallen?
Auf welche Datenbedingungen sollten wir achten, wenn p-Werte möglicherweise nicht die beste Methode zur Bestimmung der statistischen Signifikanz sind? Gibt es bestimmte Problemtypen, die in diese Kategorie fallen?
Antworten:
Sie fragen nach Data Dredging , was passiert, wenn Sie eine sehr große Anzahl von Hypothesen mit einem Datensatz oder Hypothesen mit einem Datensatz testen, die von denselben Daten vorgeschlagen wurden.
Sehen Sie sich insbesondere das Risiko multipler Hypothesen und die von den Daten vorgeschlagenen Testhypothesen an .
Die Lösung besteht darin, eine Art Korrektur für die Rate falscher Entdeckungen oder die familienweise Fehlerrate zu verwenden , wie beispielsweise die Scheffé-Methode oder die (sehr altmodische ) Bonferroni-Korrektur .
Etwas weniger streng kann es hilfreich sein, Ihre Entdeckungen nach dem Konfidenzintervall für das Odds Ratio (OR) für jedes statistische Ergebnis zu filtern. Wenn das 99% -Konfidenzintervall für das Odds Ratio 10-12 beträgt, ist der OR <= 1 mit einer äußerst geringen Wahrscheinlichkeit, insbesondere wenn die Stichprobengröße ebenfalls groß ist. Wenn Sie so etwas finden, ist es wahrscheinlich ein starker Effekt, selbst wenn es aus einem Test von Millionen von Hypothesen hervorgegangen ist.
Sie sollten den p-Wert nicht außerhalb des Kontexts betrachten.
Ein eher grundlegender Punkt (wie von xkcd illustriert) ) ist, dass Sie überlegen müssen, wie viele Tests Sie tatsächlich durchführen. Natürlich sollten Sie nicht schockiert sein, wenn Sie für einen von 20 Tests p <0,05 sehen, auch wenn die Nullhypothese jedes Mal zutrifft.
Ein subtileres Beispiel hierfür findet sich in der Hochenergiephysik und wird als Look-Anderswo-Effekt bezeichnet . Je größer der Parameterraum ist, den Sie für ein Signal suchen, das möglicherweise ein neues Partikel darstellt, desto wahrscheinlicher ist es, dass Sie ein scheinbares Signal sehen, das eigentlich nur auf zufällige Schwankungen zurückzuführen ist.
Eine Sache, die Sie beachten sollten, ist die von Ihnen verwendete Stichprobengröße. Sehr große Stichproben, z. B. Ökonomen, die Volkszählungsdaten verwenden, führen zu deflationierten p-Werten. In diesem Artikel "Too Big to Fail: Große Stichproben und das p-Wert-Problem" werden einige der Probleme behandelt.