Ich ärgere mich sehr über die folgenden beiden Ideen:
Bei großen Stichproben stürzen sich Signifikanztests auf winzige, unwichtige Abweichungen von der Nullhypothese.
In der realen Welt gibt es praktisch keine Nullhypothesen, daher ist es absurd und bizarr, einen Signifikanztest für sie durchzuführen.
Es ist so ein Strohmann-Argument über p-Werte. Das grundlegende Problem, das zur Entwicklung der Statistik geführt hat, besteht darin, einen Trend zu erkennen und zu wissen, ob das, was wir sehen, zufällig ist oder einen systematischen Trend darstellt.
HO: μd= 0μdμd≠ 0μd> 0μd< 0μd> 0μd= 0μd< 0
Es ist wahr, dass dies nicht die Stärke des Effekts angibt. Aber es sagt Ihnen die Richtung des Effekts. Stellen wir also den Karren nicht vor das Pferd. Bevor ich anfange, Schlussfolgerungen über die Stärke des Effekts zu ziehen, möchte ich sicher sein, dass ich die Richtung des Effekts richtig eingestellt habe!
Ebenso scheint mir das Argument, dass "p-Werte sich auf winzige, unwichtige Effekte stürzen", ziemlich fehlerhaft zu sein. Wenn Sie sich einen p-Wert als Maß dafür vorstellen, wie stark die Daten die Richtung Ihrer Schlussfolgerung unterstützen, möchten Sie natürlich, dass kleine Effekte aufgenommen werden, wenn die Stichprobengröße groß genug ist. Zu sagen, dass dies bedeutet, dass sie nicht nützlich sind, ist für mich sehr seltsam: Sind diese Forschungsbereiche, die unter p-Werten gelitten haben, dieselben, die über so viele Daten verfügen, dass sie die Zuverlässigkeit ihrer Schätzungen nicht beurteilen müssen? In ähnlicher Weise können Sie die Hypothesen testen, wenn Ihre Probleme wirklich darin bestehen, dass p-Werte "auf winzige Effektgrößen stürzen"H1: μd> 1H2: μd< - 1
Um dies weiter zu veranschaulichen, nehmen wir an, wir hätten nur Konfidenzintervalle betrachtet und p-Werte verworfen. Was ist das erste, was Sie im Konfidenzintervall überprüfen würden? Ob der Effekt ausschließlich positiv (oder negativ) war, bevor die Ergebnisse zu ernst genommen wurden. Selbst ohne p-Werte würden wir daher informell Hypothesentests durchführen.
In Bezug auf die Anfrage von OP / Matloff, "Geben Sie ein überzeugendes Argument dafür, dass p-Werte signifikant besser sind", halte ich die Frage für etwas umständlich. Ich sage dies, weil es sich je nach Ihrer Ansicht automatisch selbst beantwortet ("Geben Sie mir ein konkretes Beispiel, bei dem das Testen einer Hypothese besser ist, als sie nicht zu testen"). Ein Sonderfall, den ich für nahezu unbestreitbar halte, sind jedoch RNAseq-Daten. In diesem Fall untersuchen wir in der Regel das Expressionsniveau von RNA in zwei verschiedenen Gruppen (dh erkrankte, kontrollierte) und versuchen, Gene zu finden, die in den beiden Gruppen unterschiedlich exprimiert werden. In diesem Fall ist die Effektgröße selbst nicht wirklich aussagekräftig. Dies liegt daran, dass die Expressionsniveaus verschiedener Gene so stark variieren, dass für einige Gene eine zweifach höhere Expression nichts bedeutet. Bei anderen streng regulierten Genen ist eine 1,2-fach höhere Expression tödlich. Daher ist die tatsächliche Größe der Effektgröße beim ersten Vergleich der Gruppen eigentlich ziemlich uninteressant. Aber duwirklich, möchte wirklich wissen, ob sich die Expression des Gens zwischen den Gruppen und der Richtung der Änderung ändert! Darüber hinaus ist es viel schwieriger, die Probleme mehrerer Vergleiche (für die Sie möglicherweise 20.000 Vergleiche in einem Durchgang durchführen) mit Konfidenzintervallen zu lösen, als dies bei p-Werten der Fall ist.