Das Problem bei Angelexpeditionen ist: Wenn Sie genügend Hypothesen testen, wird eine davon mit einem niedrigen p-Wert bestätigt. Lassen Sie mich ein konkretes Beispiel geben.
Stellen Sie sich vor, Sie führen eine epidemiologische Studie durch. Sie haben 1000 Patienten gefunden, die an einer seltenen Krankheit leiden. Sie möchten wissen, was sie gemeinsam haben. Beginnen Sie mit dem Testen - Sie möchten sehen, ob ein bestimmtes Merkmal in diesem Beispiel überrepräsentiert ist. Sie testen zunächst Geschlecht, Rasse, bestimmte relevante Familienanamnese (Vater starb vor seinem 50. Lebensjahr an einer Herzerkrankung,…), aber wenn Sie Probleme haben, irgendetwas zu finden, das "klebt", fügen Sie schließlich alle möglichen anderen Faktoren hinzu, die gerecht werden könnte mit der Krankheit zusammenhängen:
- ist Vegetarier
- ist nach Kanada gereist
- College beendet
- ist verheiratet
- hat Kinder
- hat Katzen
- hat Hunde
- trinkt mindestens 5 Gläser Rotwein pro Woche
…
Jetzt ist hier das Ding. Wenn ich genügend "zufällige" Hypothesen auswähle, wird es wahrscheinlich, dass mindestens eine davon zu einem p-Wert von weniger als 0,05 führt, da das Wesen des p-Werts darin besteht, dass die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, falsch ist ist kein Effekt ". Anders ausgedrückt: Im Durchschnitt erhalten Sie für jede 20 Scheinhypothesen, die Sie testen, einen ap von <0,05 .
Dies ist sehr gut in der XKCD-Karikatur http://xkcd.com/882/ zusammengefasst :
Die Tragödie ist, dass selbst wenn ein einzelner Autor nicht 20 verschiedene Hypothesentests an einer Stichprobe durchführt, um nach Signifikanz zu suchen, es 19 andere Autoren geben kann, die dasselbe tun; und derjenige, der eine Korrelation "findet", hat jetzt ein interessantes Papier zu schreiben, und eines, das wahrscheinlich zur Veröffentlichung angenommen wird ...
Dies führt zu einer unglücklichen Tendenz zu nicht reproduzierbaren Befunden. Der beste Weg, sich als einzelner Autor dagegen zu schützen, besteht darin, die Messlatte höher zu legen. Anstatt auf den individuellen Faktor zu testen, fragen Sie sich: "Wenn ich N Hypothesen teste, wie hoch ist die Wahrscheinlichkeit, dass mindestens ein falsches Positiv herauskommt?" Wenn Sie wirklich "Fischereihypothesen" testen, könnten Sie darüber nachdenken, eine Bonferroni-Korrektur vorzunehmen , um sich dagegen zu schützen - aber die Leute tun dies häufig nicht.
Es gab einige interessante Artikel von Dr. Ioannides, die im Atlantic Monthly speziell zu diesem Thema vorgestellt wurden.
Siehe auch diese frühere Frage mit mehreren aufschlussreichen Antworten.
Update, um besser auf alle Aspekte Ihrer Frage zu antworten:
Wenn Sie befürchten, Sie könnten "angeln", aber wirklich nicht wissen, welche Hypothese Sie formulieren sollen, können Sie Ihre Daten definitiv in die Abschnitte "Exploration", "Replikation" und "Bestätigung" aufteilen. Im Prinzip sollte dies Ihr Risiko einschränken: Wenn Sie in den Explorationsdaten einen p-Wert von 0,05 haben und in den Replikations- und Bestätigungsdaten einen ähnlichen Wert erhalten, sinkt das Risiko, dass Sie falsch liegen. Ein schönes Beispiel für "Do it Right" wurde im British Medical Journal gezeigt (eine sehr angesehene Veröffentlichung mit einem Impact Factor von 17+).
Untersuchung und Bestätigung von Faktoren im Zusammenhang mit einer unkomplizierten Schwangerschaft bei nulliparen Frauen: prospektive Kohortenstudie, Chappell et al
Hier ist der relevante Absatz:
Wir haben den Datensatz von 5628 Frauen in drei Teile geteilt: einen Untersuchungsdatensatz von zwei Dritteln der Frauen aus Australien und Neuseeland, die zufällig ausgewählt wurden (n = 2129); ein lokaler Replikationsdatensatz des verbleibenden Drittels der Frauen aus Australien und Neuseeland (n = 1067); und einen externen, geografisch unterschiedlichen Bestätigungsdatensatz von 2432 europäischen Frauen aus dem Vereinigten Königreich und der Republik Irland.
In der Literatur gibt es einen guten Aufsatz von Altman et al. Mit dem Titel "Prognose- und Prognoseforschung: Validierung eines Prognosemodells", der viel tiefer geht und Wege vorschlägt, um sicherzustellen, dass Sie nicht hineinfallen dieser Fehler. Die "wichtigsten Punkte" aus dem Artikel:
Nicht validierte Modelle sollten in der klinischen Praxis nicht verwendet werden. Bei der Validierung eines Prognosemodells sollten Kalibrierung und Diskriminierung bewertet werden. Die Validierung sollte anhand anderer Daten erfolgen als bei der Entwicklung des Modells, vorzugsweise von Patienten in anderen Zentren aufgrund von Mängeln in den Entwicklungsmethoden oder weil das neue Muster zu unterschiedlich vom Original ist
Beachten Sie insbesondere den Vorschlag, dass die Validierung mit Daten aus anderen Quellen durchgeführt werden soll (ich umschreibe es). Das heißt, es reicht nicht aus, Ihre Daten willkürlich in Teilmengen aufzuteilen von Experimenten können auf Daten aus einer anderen Reihe von Experimenten angewendet werden. Dies ist eine höhere Messlatte, verringert jedoch das Risiko, dass eine systematische Abweichung in Ihrem Setup zu "Ergebnissen" führt, die nicht unabhängig überprüft werden können.
Es ist ein sehr wichtiges Thema - danke, dass Sie die Frage gestellt haben!