p
Würde dies ein goldenes Zeitalter der Wissenschaft und der Vernunft einläuten? Nein wahrscheinlich nicht.
tH0:HA: The groups have the same mean. The groups have different means.
H0H0Die Hypothese ist in gewissem Sinne "langweilig", und Forscher bemühen sich in der Regel darum, eine "falsch positive" Situation zu vermeiden, in der sie behaupten, einen Unterschied zwischen den Gruppen gefunden zu haben, in denen keine wirklich existiert. Daher bezeichnen wir Ergebnisse nur dann als "signifikant", wenn sie unter der Nullhypothese unwahrscheinlich erscheinen und die Unwahrscheinlichkeitsschwelle gemäß Konvention auf 5% festgelegt ist.
Dies gilt für einen einzelnen Test. Angenommen, Sie führen mehrere Tests durch und sind bereit, eine Wahrscheinlichkeit von 5% für eine versehentliche Annahme zu akzeptierenH0
Die verschiedenen Mehrfachkorrekturansätze sollen Ihnen helfen, zu einer nominalen Fehlerrate zurückzukehren, die Sie bereits für einzelne Tests toleriert haben. Sie tun dies auf etwas unterschiedliche Weise. Methoden, die die familienbezogene Fehlerrate steuern , wie die Bonferroni- , Sidak- und Holm-Prozeduren , besagen: "Sie wollten eine 5% ige Chance, einen Fehler in einem einzelnen Test zu machen, also stellen wir sicher, dass Sie nicht mehr als eine 5 haben % Chance, Fehler in all Ihren Tests zu machen. " Methoden zur Steuerung der False Discovery RateSagen Sie stattdessen "Es scheint in Ordnung zu sein, dass Sie bis zu 5% der Zeit mit einem einzelnen Test falsch liegen. Wir stellen daher sicher, dass nicht mehr als 5% Ihrer" Anrufe "falsch sind, wenn Sie mehrere Tests durchführen." (Sieh den Unterschied?)
Angenommen, Sie haben versucht, die familienbezogene Fehlerrate
aller jemals durchgeführten Hypothesentests zu steuern . Sie sagen im Wesentlichen, dass Sie eine Chance von <5% haben möchten, eine Nullhypothese jemals fälschlicherweise abzulehnen. Dies setzt eine unglaublich strenge Schwelle fest und Inferenz wäre effektiv nutzlos, aber es gibt ein noch dringenderes Problem: Ihre globale Korrektur bedeutet, dass Sie absolut unsinnige "zusammengesetzte Hypothesen" wie testen
H1:Drug XYZ changes T-cell count ∧Grapes grow better in some fields ∧…∧…∧…∧…∧Men and women eat different amounts of ice cream
Mit Korrekturen der falschen Erkennungsrate ist das numerische Problem nicht ganz so schwerwiegend, aber es ist philosophisch immer noch ein Chaos. Stattdessen ist es sinnvoll, eine "Familie" verwandter Tests zu definieren, z. B. eine Liste von Kandidatengenen während einer Genomstudie oder eine Reihe von Zeit-Frequenz-Klassen während einer Spektralanalyse. Indem Sie Ihre Familie auf eine bestimmte Frage zuschneiden, können Sie Ihren Typ-I-Fehler direkt interpretieren. Sie könnten sich beispielsweise einen FWER-korrigierten Satz von p-Werten aus Ihren eigenen Genomdaten ansehen und sagen: "Es besteht eine Wahrscheinlichkeit von <5%, dass eines dieser Gene falsch positiv ist." Dies ist weitaus besser als eine nebulöse Garantie, die Schlussfolgerungen von Personen abdeckt, die Sie nicht für Themen interessieren, die Sie nicht interessieren.
Die Kehrseite davon ist, dass die richtige Wahl von "Familie" umstritten und ein bisschen subjektiv ist (Sind alle Gene eine Familie oder kann ich nur die Kinasen berücksichtigen?), Aber es sollte durch Ihr Problem informiert werden und ich glaube niemandem hat ernsthaft befürwortet, Familien fast so umfassend zu definieren.
Wie wäre es mit Bayes?
Die Bayes'sche Analyse bietet eine kohärente Alternative zu diesem Problem - wenn Sie bereit sind, sich ein wenig vom häufig auftretenden Fehler-Framework Typ I / Typ II zu entfernen. Wir beginnen mit etwas Unverbindlichem, bevor wir ... nun ... alles besprechen. Jedes Mal, wenn wir etwas lernen, wird diese Information mit der vorherigen kombiniert, um eine hintere Verteilung zu erzeugen, die wiederum die vorherige wird, wenn wir das nächste Mal etwas lernen. Dies gibt Ihnen eine kohärente Aktualisierungsregel und Sie können verschiedene Hypothesen zu bestimmten Dingen vergleichen, indem Sie den Bayes-Faktor zwischen zwei Hypothesen berechnen. Sie könnten vermutlich große Teile des Modells herausfiltern, was dies nicht einmal besonders belastend machen würde.
Es gibt ein andauerndes ... Mem, dass Bayes'sche Methoden keine mehrfachen Vergleichskorrekturen erfordern. Leider sind die hinteren Quoten nur eine weitere Teststatistik für Frequentisten (dh Menschen, die sich für Typ I / II-Fehler interessieren). Sie haben keine besonderen Eigenschaften, die diese Art von Fehlern kontrollieren. (Warum sollten sie?) Sie befinden sich also wieder auf unüberwindlichem Terrain, aber vielleicht auf etwas grundsätzlicherem Boden.
Das Bayes'sche Gegenargument ist, dass wir uns auf das konzentrieren sollten, was wir jetzt wissen können, und daher sind diese Fehlerraten nicht so wichtig.
Zur Reproduzierbarkeit
Sie scheinen zu vermuten, dass eine unsachgemäße Mehrfachvergleichskorrektur der Grund für viele inkorrekte / nicht reproduzierbare Ergebnisse ist. Meines Erachtens sind andere Faktoren eher ein Problem. Offensichtlich führt der Veröffentlichungsdruck dazu, dass Menschen Experimente meiden, die ihre Hypothese wirklich belasten (dh schlechtes experimentelles Design).
p