Ist es möglich, eine Hypothese so zu ändern, dass sie mit den beobachteten Daten übereinstimmt (auch bekannt als Angelexpedition) und eine Zunahme von Fehlern des Typs I zu vermeiden?


32

Es ist allgemein bekannt, dass Forscher Zeit damit verbringen sollten , vorhandene Daten und Forschungsergebnisse zu beobachten und zu untersuchen, bevor sie eine Hypothese bilden und dann Daten sammeln, um diese Hypothese zu testen (unter Bezugnahme auf das Testen der Signifikanz von Nullhypothesen). Viele grundlegende Statistiken Bücher warnen , dass Hypothesen gebildet werden müssen , a priori und kann nicht geändert werden kann , nachdem die Datenerhebung auf andere Weise die Methodik ungültig wird.

Ich verstehe, dass ein Grund, warum das Ändern einer Hypothese in Übereinstimmung mit beobachteten Daten problematisch ist, in der höheren Wahrscheinlichkeit besteht, dass aufgrund falscher Daten ein Fehler vom Typ I auftritt. Meine Frage lautet jedoch: Ist dies der einzige Grund, oder gibt es andere grundsätzliche Probleme beim Gehen? auf einer fischexpedition?

Gibt es als Bonusfrage Möglichkeiten, auf Fangexpeditionen zu gehen, ohne sich den möglichen Fallstricken auszusetzen? Wenn Sie beispielsweise über genügend Daten verfügen, können Sie aus der Hälfte der Daten Hypothesen generieren und diese dann mit der anderen Hälfte testen?

aktualisieren

Ich freue mich über das Interesse an meiner Frage, aber die Antworten und Kommentare richten sich hauptsächlich nach dem, was ich als Hintergrundinformation festgelegt habe. Es interessiert mich, ob es noch andere Gründe gibt, warum dies nicht der Fall ist, und ob es Möglichkeiten gibt, z. B. Daten zuerst zu teilen, eine Hypothese post hoc zu ändern, aber die Zunahme von Fehlern des Typs I zu vermeiden.

Ich habe den Titel aktualisiert, um hoffentlich den Kern meiner Frage widerzuspiegeln.

Danke und Entschuldigung für die Verwirrung!



1
Eine andere Sichtweise auf das, was bereits gesagt wurde: Das Wesen der wissenschaftlichen Methode besteht darin, Hypothesen aufzustellen und sie dann zu fälschen, damit sie zu Theorien werden können (wenn die Fälschung fehlschlägt). Eine Fischen-Expedition ist ein guter Weg, um in einem späteren Experiment Hypothesen zu finden, die es wert sind, gefälscht zu werden. Sie können jedoch niemals versuchen, eine Hypothese auf einmal zu fälschen. Insbesondere wenn Sie bereit sind, Ihre Hypothese anzupassen, versuchen Sie nicht mehr, sie zu fälschen. Stattdessen verfälschen Sie beim Anpassen Ihre nicht angepasste Hypothese und bilden eine neue Hypothese.
Wrzlprmft

@ Jona, das ist ein großartiges Papier. Ich habe bereits Artikel von Ioannidis und Schooler gelesen, aber Simmons et al. Veranschaulichen das Problem auf wunderbare Weise.
post-hoc

1
Ich frage mich, ob Sie dieses Dokument auch für Ihre Frage relevant finden: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Es ist nicht genau das gleiche Thema, aber es spricht einen Aspekt davon an.
a11msp

1
Daten können dazu führen, dass Sie Ihre Hypothese ändern. In diesem Fall müssen Sie jedoch neue Daten von Grund auf erfassen, um die neue Hypothese zu bestätigen.
Keshlam

Antworten:


54

Natürlich können Sie auch Angelexpeditionen unternehmen, solange Sie zugeben, dass es sich um eine Angelexpedition handelt, und diese als solche behandeln. Eine schönere Bezeichnung dafür ist "explorative Datenanalyse".

Eine bessere Analogie könnte darin bestehen, auf ein Ziel zu schießen:

Sie können auf ein Ziel schießen und feiern, wenn Sie ins Schwarze treffen.

Sie können ohne Ziel schießen, um die Eigenschaften Ihrer Waffe zu testen.

Aber es ist Betrug, auf eine Wand zu schießen und dann ein Ziel um das Einschussloch zu malen.

Eine Möglichkeit, einige Probleme zu vermeiden, besteht darin, die Untersuchung in einem Trainingsdatensatz durchzuführen und ihn dann in einem separaten "Test" -Datensatz zu testen.


13
Es ist schwer, Peters Antwort zu verbessern. Das unglückliche Problem bei einem Großteil der Datenbaggerung ist das Fehlen der Einwilligung der Autoren, dass die Hypothesen nicht vollständig vorgegeben wurden, dh dass der Begriff „explorativ“ nicht verwendet wurde. Viele, viele Forscher baggern Daten aus, um ein publizierbares Papier zu erhalten, und führen keine Validierungsversuche durch (was sie oft enttäuschen würde).
Frank Harrell

2
Der Kommentar von Frank Harrell geht noch einen Schritt weiter: Es ist legitim, einige Daten zu untersuchen und einen faszinierenden Befund zu veröffentlichen ... als einen faszinierenden, explorativen Befund, der reproduziert / validiert werden muss. Der Nachteil ist: Wenn jemand anderes Ihre Ergebnisse bestätigt, wird er möglicherweise den Ruhm erlangen, und wenn andere Ihre Ergebnisse nicht bestätigen, wurden Sie von einer falschen Korrelation getäuscht. Schlecht, wenn du ein großes Ego hast. Ganz zu schweigen davon, dass Sie Ihre Daten und Verfahren öffentlich zugänglich machen müssen, was viele Praktiker in vielen Bereichen nicht tun. Und Sie sollten neue Daten nachverfolgen, anstatt weiterzumachen.
Wayne

11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD

3
@ post-hoc naja, es sollte keine augenbrauen hochziehen, aber es könnte sein. Kommt drauf an, wessen Augen unter den Brauen sind!
Peter Flom - Wiedereinsetzung von Monica

2
Texas Sharpshooter Fallacy ..
smci

25

Das Problem bei Angelexpeditionen ist: Wenn Sie genügend Hypothesen testen, wird eine davon mit einem niedrigen p-Wert bestätigt. Lassen Sie mich ein konkretes Beispiel geben.

Stellen Sie sich vor, Sie führen eine epidemiologische Studie durch. Sie haben 1000 Patienten gefunden, die an einer seltenen Krankheit leiden. Sie möchten wissen, was sie gemeinsam haben. Beginnen Sie mit dem Testen - Sie möchten sehen, ob ein bestimmtes Merkmal in diesem Beispiel überrepräsentiert ist. Sie testen zunächst Geschlecht, Rasse, bestimmte relevante Familienanamnese (Vater starb vor seinem 50. Lebensjahr an einer Herzerkrankung,…), aber wenn Sie Probleme haben, irgendetwas zu finden, das "klebt", fügen Sie schließlich alle möglichen anderen Faktoren hinzu, die gerecht werden könnte mit der Krankheit zusammenhängen:

  • ist Vegetarier
  • ist nach Kanada gereist
  • College beendet
  • ist verheiratet
  • hat Kinder
  • hat Katzen
  • hat Hunde
  • trinkt mindestens 5 Gläser Rotwein pro Woche

Jetzt ist hier das Ding. Wenn ich genügend "zufällige" Hypothesen auswähle, wird es wahrscheinlich, dass mindestens eine davon zu einem p-Wert von weniger als 0,05 führt, da das Wesen des p-Werts darin besteht, dass die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, falsch ist ist kein Effekt ". Anders ausgedrückt: Im Durchschnitt erhalten Sie für jede 20 Scheinhypothesen, die Sie testen, einen ap von <0,05 .

Dies ist sehr gut in der XKCD-Karikatur http://xkcd.com/882/ zusammengefasst :

Bildbeschreibung hier eingeben

Die Tragödie ist, dass selbst wenn ein einzelner Autor nicht 20 verschiedene Hypothesentests an einer Stichprobe durchführt, um nach Signifikanz zu suchen, es 19 andere Autoren geben kann, die dasselbe tun; und derjenige, der eine Korrelation "findet", hat jetzt ein interessantes Papier zu schreiben, und eines, das wahrscheinlich zur Veröffentlichung angenommen wird ...

Dies führt zu einer unglücklichen Tendenz zu nicht reproduzierbaren Befunden. Der beste Weg, sich als einzelner Autor dagegen zu schützen, besteht darin, die Messlatte höher zu legen. Anstatt auf den individuellen Faktor zu testen, fragen Sie sich: "Wenn ich N Hypothesen teste, wie hoch ist die Wahrscheinlichkeit, dass mindestens ein falsches Positiv herauskommt?" Wenn Sie wirklich "Fischereihypothesen" testen, könnten Sie darüber nachdenken, eine Bonferroni-Korrektur vorzunehmen , um sich dagegen zu schützen - aber die Leute tun dies häufig nicht.

Es gab einige interessante Artikel von Dr. Ioannides, die im Atlantic Monthly speziell zu diesem Thema vorgestellt wurden.

Siehe auch diese frühere Frage mit mehreren aufschlussreichen Antworten.

Update, um besser auf alle Aspekte Ihrer Frage zu antworten:

Wenn Sie befürchten, Sie könnten "angeln", aber wirklich nicht wissen, welche Hypothese Sie formulieren sollen, können Sie Ihre Daten definitiv in die Abschnitte "Exploration", "Replikation" und "Bestätigung" aufteilen. Im Prinzip sollte dies Ihr Risiko einschränken: Wenn Sie in den Explorationsdaten einen p-Wert von 0,05 haben und in den Replikations- und Bestätigungsdaten einen ähnlichen Wert erhalten, sinkt das Risiko, dass Sie falsch liegen. Ein schönes Beispiel für "Do it Right" wurde im British Medical Journal gezeigt (eine sehr angesehene Veröffentlichung mit einem Impact Factor von 17+).

Untersuchung und Bestätigung von Faktoren im Zusammenhang mit einer unkomplizierten Schwangerschaft bei nulliparen Frauen: prospektive Kohortenstudie, Chappell et al

Hier ist der relevante Absatz:

Wir haben den Datensatz von 5628 Frauen in drei Teile geteilt: einen Untersuchungsdatensatz von zwei Dritteln der Frauen aus Australien und Neuseeland, die zufällig ausgewählt wurden (n = 2129); ein lokaler Replikationsdatensatz des verbleibenden Drittels der Frauen aus Australien und Neuseeland (n = 1067); und einen externen, geografisch unterschiedlichen Bestätigungsdatensatz von 2432 europäischen Frauen aus dem Vereinigten Königreich und der Republik Irland.

In der Literatur gibt es einen guten Aufsatz von Altman et al. Mit dem Titel "Prognose- und Prognoseforschung: Validierung eines Prognosemodells", der viel tiefer geht und Wege vorschlägt, um sicherzustellen, dass Sie nicht hineinfallen dieser Fehler. Die "wichtigsten Punkte" aus dem Artikel:

Nicht validierte Modelle sollten in der klinischen Praxis nicht verwendet werden. Bei der Validierung eines Prognosemodells sollten Kalibrierung und Diskriminierung bewertet werden. Die Validierung sollte anhand anderer Daten erfolgen als bei der Entwicklung des Modells, vorzugsweise von Patienten in anderen Zentren aufgrund von Mängeln in den Entwicklungsmethoden oder weil das neue Muster zu unterschiedlich vom Original ist

Beachten Sie insbesondere den Vorschlag, dass die Validierung mit Daten aus anderen Quellen durchgeführt werden soll (ich umschreibe es). Das heißt, es reicht nicht aus, Ihre Daten willkürlich in Teilmengen aufzuteilen von Experimenten können auf Daten aus einer anderen Reihe von Experimenten angewendet werden. Dies ist eine höhere Messlatte, verringert jedoch das Risiko, dass eine systematische Abweichung in Ihrem Setup zu "Ergebnissen" führt, die nicht unabhängig überprüft werden können.

Es ist ein sehr wichtiges Thema - danke, dass Sie die Frage gestellt haben!


7
Das erinnert mich
Jens

2
@jens - das ist eine weitaus beredtere Erklärung als die, die ich gegeben habe ... Danke für diesen Link. Wie üblich - tun Sie mit der Maus über die Karikatur für einen kleinen zinger schweben.
Floris

Ioannides und der Lehrer-Artikel waren der Weg, der mich hierher brachte. Ihr Beispiel ähnelt dem von @jona erwähnten Beispiel von Simmons et al . Es ist eine sehr gute Möglichkeit, die erhöhte Wahrscheinlichkeit von Fehlern des Typs I zu erklären. Gibt es jedoch andere Gründe, warum dies schlecht ist?
post-hoc

1
Das Problem mit dem Baggern von Daten im Allgemeinen ist, dass Sie die Gefahr haben, "Korrelation" mit "Kausalität" zu verwechseln. Durch kommen mit einer angemessenen Hypothese auf , zunächst bestätigt, dann , dass es erklären die Beobachtungen hilft, begrenzen Sie das Risiko der beiden verwirrend. „Big Data“ geht oft in die andere Richtung - ihre Vorgehensweise ist „wenn ich genug Daten analysieren werde ich Muster sehen , die wahr in der Vergangenheit gehalten , und das wird auch in Zukunft halten“. Manchmal funktioniert es, manchmal nicht. Statistiken sollten niemals ein Ersatz für Denken und Verstehen sein - immer nur eine Bestätigung .
Floris

6
Ich glaube nicht, dass das Hauptproblem Korrelation oder Kausalität ist. Es ist einfach, miese Korrelationsanalysen durchzuführen, nur um festzustellen, dass sich Assoziationen nicht replizieren.
Frank Harrell

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.