Ich habe diesen Artikel in Nature gelesen, in dem einige Irrtümer im Zusammenhang mit der Datenanalyse erläutert werden. Mir ist aufgefallen, dass der Texas Sharpshooter-Irrtum besonders schwer zu vermeiden war:
Eine kognitive Falle, die während der Datenanalyse erwartet wird, zeigt die Fabel des texanischen Scharfschützen: Ein unfähiger Schütze, der ein zufälliges Muster von Kugeln an der Seite einer Scheune abfeuert, ein Ziel um die größte Ansammlung von Einschusslöchern zieht und stolz darauf zeigt sein erfolg.
Sein Bullseye ist offensichtlich lächerlich - aber der Trugschluss ist nicht so offensichtlich für Spieler, die an eine "heiße Hand" glauben, wenn sie eine Gewinnserie haben, oder für Leute, die eine übernatürliche Bedeutung sehen, wenn ein Lotterieziehung als ungerade Zahlen auftaucht.
Auch ist es für Forscher nicht immer offensichtlich. "Man bekommt nur ein wenig Ermutigung von den Daten und denkt dann, nun, das ist der Weg, den man beschreiten muss", sagt Pashler. „Sie haben nicht bemerkt, dass Sie 27 verschiedene Optionen hatten, und Sie haben die ausgewählt, die Ihnen die angenehmsten oder interessantesten Ergebnisse gebracht hat, und jetzt beschäftigen Sie sich mit etwas, das überhaupt keine unvoreingenommene Darstellung der Daten ist. "
Ich denke, diese Art von Explorationsarbeit ist alltäglich und oft werden Hypothesen basierend auf diesem Teil der Analyse erstellt. Für diesen Prozess gibt es einen vollständigen Ansatz ( EDA ):
Die explorative Datenanalyse wurde von John Tukey vorangetrieben, um Statistiker zu ermutigen, die Daten zu untersuchen und möglicherweise Hypothesen zu formulieren, die zu neuen Datenerfassungen und Experimenten führen könnten
Es sieht so aus, als ob jeder Explorationsprozess, der ohne vorherige Hypothese durchgeführt wird, dazu neigt, falsche Hypothesen zu generieren.
Beachten Sie, dass in der obigen Beschreibung von EDA tatsächlich die Rede ist new data collection and experiments
. Ich verstehe, dass nach der Erfassung neuer Daten eine Bestätigungsdatenanalyse (CDA) angebracht ist. Ich denke jedoch nicht, dass diese Unterscheidung sehr klar ist, und obwohl eine Trennung von EDA und CDA ideal wäre, gibt es sicherlich einige Umstände, unter denen dies nicht durchführbar ist. Ich würde so weit gehen zu sagen, dass die strikte Befolgung dieser Trennung ungewöhnlich ist und die meisten Praktiker dem EDA-Paradigma überhaupt nicht zustimmen.
Meine Frage lautet also: Lässt EDA (oder ein informeller Prozess zur Erkundung von Daten) die Wahrscheinlichkeit steigen, dass es auf den Texas Sharpshooter-Trugschluss hereinfällt?