Wann täuschen p-Werte?


14

Auf welche Datenbedingungen sollten wir achten, wenn p-Werte möglicherweise nicht die beste Methode zur Bestimmung der statistischen Signifikanz sind? Gibt es bestimmte Problemtypen, die in diese Kategorie fallen?


2
Antwort von Snarky: fast immer. Es gibt einen enormen Anreiz, Fehler vom Typ 1 (dh "Fehlalarme") zu verursachen, wenn Analysten Daten untersuchen, sodass fast alle P-Werte, auf die Sie stoßen, "zu" klein sind.
statsRus

7
Wirf das einfach raus, aber würde diese Art von Frage nicht am besten bei Cross Validated gestellt werden ?
Buruzaemon

1
@buruzaemon: Vielleicht. Ich habe eine Suche durchgeführt, dies ist die engste Übereinstimmung: stats.stackexchange.com/questions/67320/… Es scheint nicht mehr als eine Handvoll Fragen zu geben, die sich darauf beziehen .
Alex I

Antworten:


9

Sie fragen nach Data Dredging , was passiert, wenn Sie eine sehr große Anzahl von Hypothesen mit einem Datensatz oder Hypothesen mit einem Datensatz testen, die von denselben Daten vorgeschlagen wurden.

Sehen Sie sich insbesondere das Risiko multipler Hypothesen und die von den Daten vorgeschlagenen Testhypothesen an .

Die Lösung besteht darin, eine Art Korrektur für die Rate falscher Entdeckungen oder die familienweise Fehlerrate zu verwenden , wie beispielsweise die Scheffé-Methode oder die (sehr altmodische ) Bonferroni-Korrektur .

Etwas weniger streng kann es hilfreich sein, Ihre Entdeckungen nach dem Konfidenzintervall für das Odds Ratio (OR) für jedes statistische Ergebnis zu filtern. Wenn das 99% -Konfidenzintervall für das Odds Ratio 10-12 beträgt, ist der OR <= 1 mit einer äußerst geringen Wahrscheinlichkeit, insbesondere wenn die Stichprobengröße ebenfalls groß ist. Wenn Sie so etwas finden, ist es wahrscheinlich ein starker Effekt, selbst wenn es aus einem Test von Millionen von Hypothesen hervorgegangen ist.


1
Bonferroni ist definitiv eine alte Schule, aber immer noch sehr beliebt. Damit verbunden ist eine Methode namens Šidák-Korrektur ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Ich rufe es heraus, weil wir in einem großen Targeting-Werbesystem, an dem ich gearbeitet habe, diesen Ansatz als UDF in Hive implementieren konnten. Dies funktioniert jedoch nur dann besser, wenn Sie zwischen den Tests unabhängig sind. Wenn nicht, müssen Sie auf Bonferroni oder eine andere Methode zurückgreifen.
Chris Simokat

5

Sie sollten den p-Wert nicht außerhalb des Kontexts betrachten.

Ein eher grundlegender Punkt (wie von xkcd illustriert) ) ist, dass Sie überlegen müssen, wie viele Tests Sie tatsächlich durchführen. Natürlich sollten Sie nicht schockiert sein, wenn Sie für einen von 20 Tests p <0,05 sehen, auch wenn die Nullhypothese jedes Mal zutrifft.

Ein subtileres Beispiel hierfür findet sich in der Hochenergiephysik und wird als Look-Anderswo-Effekt bezeichnet . Je größer der Parameterraum ist, den Sie für ein Signal suchen, das möglicherweise ein neues Partikel darstellt, desto wahrscheinlicher ist es, dass Sie ein scheinbares Signal sehen, das eigentlich nur auf zufällige Schwankungen zurückzuführen ist.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.