Texas Sharpshooter Irrtum in der explorativen Datenanalyse


23

Ich habe diesen Artikel in Nature gelesen, in dem einige Irrtümer im Zusammenhang mit der Datenanalyse erläutert werden. Mir ist aufgefallen, dass der Texas Sharpshooter-Irrtum besonders schwer zu vermeiden war:

Eine kognitive Falle, die während der Datenanalyse erwartet wird, zeigt die Fabel des texanischen Scharfschützen: Ein unfähiger Schütze, der ein zufälliges Muster von Kugeln an der Seite einer Scheune abfeuert, ein Ziel um die größte Ansammlung von Einschusslöchern zieht und stolz darauf zeigt sein erfolg.

Sein Bullseye ist offensichtlich lächerlich - aber der Trugschluss ist nicht so offensichtlich für Spieler, die an eine "heiße Hand" glauben, wenn sie eine Gewinnserie haben, oder für Leute, die eine übernatürliche Bedeutung sehen, wenn ein Lotterieziehung als ungerade Zahlen auftaucht.

Auch ist es für Forscher nicht immer offensichtlich. "Man bekommt nur ein wenig Ermutigung von den Daten und denkt dann, nun, das ist der Weg, den man beschreiten muss", sagt Pashler. „Sie haben nicht bemerkt, dass Sie 27 verschiedene Optionen hatten, und Sie haben die ausgewählt, die Ihnen die angenehmsten oder interessantesten Ergebnisse gebracht hat, und jetzt beschäftigen Sie sich mit etwas, das überhaupt keine unvoreingenommene Darstellung der Daten ist. "

Ich denke, diese Art von Explorationsarbeit ist alltäglich und oft werden Hypothesen basierend auf diesem Teil der Analyse erstellt. Für diesen Prozess gibt es einen vollständigen Ansatz ( EDA ):

Die explorative Datenanalyse wurde von John Tukey vorangetrieben, um Statistiker zu ermutigen, die Daten zu untersuchen und möglicherweise Hypothesen zu formulieren, die zu neuen Datenerfassungen und Experimenten führen könnten

Es sieht so aus, als ob jeder Explorationsprozess, der ohne vorherige Hypothese durchgeführt wird, dazu neigt, falsche Hypothesen zu generieren.

Beachten Sie, dass in der obigen Beschreibung von EDA tatsächlich die Rede ist new data collection and experiments. Ich verstehe, dass nach der Erfassung neuer Daten eine Bestätigungsdatenanalyse (CDA) angebracht ist. Ich denke jedoch nicht, dass diese Unterscheidung sehr klar ist, und obwohl eine Trennung von EDA und CDA ideal wäre, gibt es sicherlich einige Umstände, unter denen dies nicht durchführbar ist. Ich würde so weit gehen zu sagen, dass die strikte Befolgung dieser Trennung ungewöhnlich ist und die meisten Praktiker dem EDA-Paradigma überhaupt nicht zustimmen.

Meine Frage lautet also: Lässt EDA (oder ein informeller Prozess zur Erkundung von Daten) die Wahrscheinlichkeit steigen, dass es auf den Texas Sharpshooter-Trugschluss hereinfällt?


3
Ich weiß nicht genau, was Sie mit "Scheinhypothese" meinen. Bei der explorativen Datenanalyse geht es darum, die Daten zu analysieren und für eine Vielzahl von Mustern offen zu sein, einschließlich von Mustern, die Sie nicht erwartet haben. Nicht weniger und nicht viel mehr. Nichts in der explorativen Datenanalyse garantiert gute Ideen und nichts schließt aus oder lässt Sie auf kritisches Denken verzichten oder Ihre Arbeit mit der zugrunde liegenden Wissenschaft verknüpfen (weiter Sinn). Hier besteht also ein gewisses Risiko, EDA für Dinge zu kritisieren, die niemand bestreitet. oder niemand unterstützt.
Nick Cox

3
Was in EDA am schwierigsten zu lernen und zu lehren ist, ist genau das, worauf Signifikanztests (in den optimistischsten Fällen) abzielen sollen: sich angewöhnen, Details in den Daten, die nicht wichtig genug sind, um beachtet zu werden, nicht zu überinterpretieren . Ich würde argumentieren, dass viele EDA-Berichte die Idee, dass ein ernst zu nehmendes Muster in verschiedenen Datensätzen identifizierbar sein muss, nicht stark genug vorantreiben, aber dass Vernachlässigung in der Statistikwissenschaft weit verbreitet ist.
Nick Cox

1
Vielen Dank. Das Problem ist, dass es sehr gefährlich ist, viele Hypothesen zu erstellen und im selben Datensatz zu testen, da Sie wahrscheinlich eine davon bestätigen, auch wenn sie falsch ist. Wie Kreosot beschreibt, wäre eine Korrektur der p-Werte erforderlich. Leider habe ich das noch nie in der Praxis gesehen.
Robert Smith

2
Als ich in den frühen 1980er Jahren (Französisch) EDA lernte, hatte ich den Eindruck, dass es tatsächlich viel einfacher war, Ihre Analyse auf die beabsichtigten Schlussfolgerungen abzustimmen, als mit einer stärkeren statistischen Struktur ...
Xi'an

Antworten:


12

Wenn man die Rolle der EDA streng als Erzeugung von Hypothesen ansieht, dann trifft der Scharfschützen-Irrtum nicht zu. Es ist jedoch sehr wichtig, dass nachfolgende Bestätigungsversuche tatsächlich unabhängig sind. Viele Forscher versuchen, "Unterschiede" mit Dingen wie gepoolten Analysen, Metaanalysen und Bayes'schen Methoden in Einklang zu bringen. Dies bedeutet, dass zumindest einige der Beweise, die in einer solchen Analyse präsentiert werden, "den Kreis um die zufälligen Einschusslöcher" umfassen.


5
Genau. Das Problem bei so vielen explorativen Datenanalysen ist, dass derselbe Satz sowohl für das Training (Identifizieren, wo die Kugeln gelandet sind) als auch für den Test (Zeichnen des Kreises um sie herum) verwendet wird.
Michael K

11

Dies wirft einen sehr negativen Blick auf die explorative Datenanalyse. Das Argument ist zwar nicht falsch, aber es besagt wirklich, "was kann schief gehen, wenn ich ein sehr wichtiges Werkzeug falsch benutze?"

Das Akzeptieren nicht angepasster p-Werte von EDA-Methoden führt zu stark überhöhten Typ-I-Fehlerraten. Aber ich denke, Tukey wäre mit niemandem glücklich, der das tut. Der Zweck von EDA besteht nicht darin, endgültige Schlussfolgerungen zu den Beziehungen in den Daten zu ziehen, sondern nach potenziellen neuartigen Beziehungen in den Daten zu suchen, auf die man zurückgreifen kann.

Diesen Schritt im größeren wissenschaftlichen Prozess auszulassen, bedeutet im Wesentlichen, die Wissenschaft daran zu hindern, neue interessante Aspekte unserer Daten außerhalb der rein logischen Folgerung zu finden. Versuchen Sie jemals, logisch herauszufinden, wie sich eine Überexpression einer Reihe von Genen auf das Überleben einer Zelle auswirkt? Hinweis: Es ist nicht sehr einfach (einer unserer Lieblingswitze unter den Mitarbeitern der Bioinformatik bei meiner Arbeit war die Frage eines Physikers: "Warum simulieren Sie nicht einfach die physikalischen Eigenschaften verschiedener Geninteraktionen? Es ist ein endlicher Parameterraum.")

Persönlich denke ich, dass Verwirrung darüber zu einer großen Verlangsamung des wissenschaftlichen Fortschritts führen kann. Ich kenne zu viele nicht-statistische Forscher, die angeben, dass sie keine EDA-Verfahren für vorläufige Daten durchführen möchten , weil sie "wissen, dass EDA schlecht sein kann".

Zusammenfassend ist es absolut richtig, dass die Verwendung von EDA-Methoden und deren Behandlung als Methoden zur konfirmatorischen Datenanalyse zu ungültigen Ergebnissen führt. Die unzureichende Verwendung von EDA kann jedoch zu fast keinen Ergebnissen führen.


Vielen Dank. Ich würde mir nicht allzu viele Sorgen machen, wenn sich nur wenige Leute auf eine Art exploratorische Analyse einlassen. Ich denke das Gegenteil ist wahr; Viele Leute machen diese Erkundungsarbeit, aber wahrscheinlich ohne angemessene Vorkehrungen zu treffen, um Typ-I-Fehler zu vermeiden, wie Sie beschrieben haben. Es ist jedoch interessant, dass Sie Leute kennen, die eine negative Meinung zu EDA haben. Wenn sie dies nicht in vorläufigen Daten tun möchten, wann fühlen sie sich dann wohl, wenn sie EDA (oder EDA-ähnliche) Arbeiten ausführen?
Robert Smith

Ich habe die Erfahrung gemacht, dass nicht-statistische Forscher es gewohnt sind, zu hören, dass "Mehrfachvergleiche problematisch sind", und wenn sie mit Daten zu mir kommen, möchten sie unbedingt vermeiden, auch mit vorläufigen Daten Mehrfachvergleiche durchzuführen. Ein vollständigeres Verständnis des Problems wäre natürlich, dass Sie mehrere Vergleiche in einer CDA-Studie vermeiden möchten.
Cliff AB

Ich verstehe. Das macht mehr Sinn.
Robert Smith

5

Es sieht so aus, als ob jeder Explorationsprozess, der ohne vorherige Hypothese durchgeführt wird, dazu neigt, falsche Hypothesen zu generieren.

Ich würde diese Aussage temperieren und etwas anders ausdrücken: Eine Hypothese zum Testen auswählen der Grundlage der Daten untergräbt den Test, wenn man nicht die richtige Nullhypothese verwendet. Der Kern des Nature-Artikels besteht im Wesentlichen darin, dass es für Analysten einfach ist, sich dazu zu bringen, all die zahlreichen Vergleiche zu ignorieren, die sie implizit während der Erkundung anstellen.

Nature zitiert Andrew Gelman, erwähnt aber nicht seine Arbeit mit Eric Loken zu diesem Thema. Ein Ausschnitt:

Wenn in Bezug auf einige der hier diskutierten Artikel Kritik an mehreren Vergleichen geäußert wird, antworten die Forscher nie, dass sie alle Details ihrer Datenverarbeitung und Datenanalyse im Voraus ausgewählt haben. Vielmehr behaupten sie, dass sie nur eine Analyse für die bestimmten Daten ausgewählt haben, die sie gesehen haben . Intuitiv, wie diese Verteidigung scheinen mag, geht sie nicht auf die grundsätzlichen häufigen Bedenken von Mehrfachvergleichen ein.

Ein weiterer:

Es ist nicht so, dass die Forscher Hunderte verschiedener Vergleiche durchgeführt und statistisch signifikante ausgewählt hätten. Sie beginnen vielmehr mit einer etwas ausgeprägten Vorstellung davon, welchen Vergleich sie durchführen sollen, und verfeinern diese Vorstellung im Lichte der Daten. Sie sahen ein Muster in Rot und Rosa und kombinierten die Farben.

Kurz gesagt:

Es gibt eine Eins-zu-Viele-Zuordnung von wissenschaftlichen zu statistischen Hypothesen.

Und noch eine, meine Betonung:

In allen Fällen, die wir besprochen haben, hat die veröffentlichte Analyse eine Geschichte, die mit den wissenschaftlichen Hypothesen übereinstimmt, die die Arbeit motiviert haben, aber andere Datenmuster (die bei den Stichprobengrößen leicht zufällig aufgetreten wären) hätten natürlich dazu geführt Unterschiedliche Datenanalysen (zum Beispiel ein Fokus auf Haupteffekte anstelle von Wechselwirkungen oder eine unterschiedliche Auswahl von zu vergleichenden Datenuntergruppen), die ebenfalls zur Unterstützung der Forschungshypothesen hätten verwendet werden können. Das Ergebnis bleibt, wie wir an anderer Stelle geschrieben haben, eine Art Maschine zum Erzeugen und Publizieren von Zufallsmustern.

Kurz gesagt, EDA führt nicht zu einer "falschen Hypothese". Das Testen einer Hypothese mit demselben Datensatz, der die Hypothese ausgelöst hat, kann zu falschen Schlussfolgerungen führen.

Wenn Sie daran interessiert sind, dieses Hindernis zu überwinden, hat Gelman eine andere Abhandlung, die argumentiert, dass viele dieser Probleme in einem Bayes'schen Rahmen verschwinden, und die Abhandlung mit Loken verweist auf "Replikation vor der Veröffentlichung", wie im ersten Abschnitt dieser Abhandlung anekdotisch beschrieben .


Vielen Dank. Sehr interessant. Ich werde einen Blick auf Gelmans Artikel über mehrere Vergleiche werfen.
Robert Smith

3

Fast per Definition, ja, natürlich zieht EDA ohne CDA texanische Scharfschützen an.

pp


Vielen Dank. Ja, eine Korrektur wäre erforderlich. Ich halte es nicht für üblich, dies zu berücksichtigen.
Robert Smith

3

Nur um die bereits guten Antworten zu ergänzen: Es gibt einen Mittelweg zwischen einem vollständigen CDA und dem Akzeptieren Ihrer EDA-Ergebnisse zum Nennwert. Sobald Sie ein mögliches interessantes Merkmal (oder eine mögliche Hypothese) gefunden haben, können Sie sich ein Bild von seiner Robustheit machen, indem Sie Cross-Validation- (CV-) oder Bootstrap-Simulationen durchführen. Wenn Ihre Ergebnisse nur von wenigen Schlüsselbeobachtungen abhängen, zeigen CV oder Bootstrap, dass viele der CV- oder Boostrap-Beispiele das beobachtete Merkmal nicht reproduzieren.

Dies ist keine narrensichere Methode, aber es ist eine gute Zwischenüberprüfung, bevor Sie eine vollständige CDA durchführen (oder absichtlich einen "Validierungssatz" aus Ihrem anfänglichen Datenpool herausholen).


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.