Wie gehe ich mit explorativer Datenanalyse und Datenbaggerung in Studien mit kleinen Stichproben um?


25

Die explorative Datenanalyse (EDA) führt häufig dazu, dass andere "Spuren" untersucht werden, die nicht unbedingt zum ursprünglichen Satz von Hypothesen gehören. Bei Studien mit einer begrenzten Stichprobengröße und einer Vielzahl von Daten, die über verschiedene Fragebögen gesammelt wurden (soziodemografische Daten, neuropsychologische oder medizinische Maßstäbe - z. B. geistige oder körperliche Funktionen, Depressionen / Angstzustände, Symptomcheckliste), sehe ich mich einer solchen Situation gegenüber ). Es kommt vor, dass EDA dabei hilft, einige unerwartete Beziehungen hervorzuheben ("unerwartet", was bedeutet, dass sie nicht im ursprünglichen Analyseplan enthalten waren), die sich in zusätzlichen Fragen / Hypothesen niederschlagen.

Wie bei einer Überanpassung führt das Ausbaggern oder Aufspüren von Daten zu Ergebnissen, die sich nicht verallgemeinern lassen. Wenn jedoch viele Daten verfügbar sind, ist es für den Forscher oder Arzt ziemlich schwierig, einen begrenzten Satz von Hypothesen zu postulieren.

Ich würde gerne wissen, ob es anerkannte Methoden, Empfehlungen oder Faustregeln gibt, die bei kleinen Stichproben zur Abgrenzung der EDA beitragen können.


Ich bin mir nicht ganz sicher, warum die Größe Ihrer Stichprobe von Bedeutung ist. Können Sie genauer begründen, warum es Ihrer Meinung nach bei kleinen n anders ist als bei großen n?
Andy W

2
@Andy Da es dann sehr schwierig wird, eine Holdout-Stichprobe und / oder ein Klassenungleichgewicht mit einer sehr begrenzten Stichprobengröße ( ) zu berücksichtigen, ergibt sich im Allgemeinen eine größere Klassifizierungsfehlerrate, wenn ein CV angewendet wird. Einige Personen könnten als Ausreißer betrachtet werden, wenn sie bivariate Verteilungen untersuchen. und Messungen an Geräten mit eigenem Messfehler sind weniger zuverlässig (small , large ). In gewissem Sinne ist es manchmal schwierig, eine unerwartete Beziehung von einem Artefakt zu lösen. 13<n<25nσ
Chl

Ich glaube, ich kann dieses Gefühl verstehen, wenn Sie sich nur für die Klassifizierung interessieren. Ich denke, für kausale Schlussfolgerungen sind die Probleme beim Daten-Snooping die gleichen (dh die Probleme werden nicht durch eine erhöhte Fähigkeit zur Identifizierung von Beziehungen gelöst). Ich werde versuchen, diese Meinung in eine Antwort zu fassen. Möglicherweise stelle ich in der Zwischenzeit im Hauptforum eine Frage zur Verwendung der Kreuzvalidierung für kausale Schlussfolgerungen, da mir in meinem Fachbereich keine Arbeiten begegnet sind, die dies tun.
Andy W

1
@ Andy Danke. Hoffentlich wird Ihre Frage viele interessante Antworten erhalten.
Chl

Antworten:


10

Ich denke, die Hauptsache ist, ehrlich zu sein, wenn solche Ergebnisse gemeldet werden, bei denen es sich um unerwartete Ergebnisse von EDA handelt und die nicht Teil des ursprünglichen Analyseplans sind, der auf einer A-priori- Hypothese basiert . Einige Leute bezeichnen solche Ergebnisse gerne als "hypothesengenerierend": Beispielsweise enthält der erste Treffer einer Suche nach diesem Ausdruck in Google Scholar im Abschnitt "Zusammenfassung" Folgendes:

Da es sich um eine "explorative" Analyse handelte, sollte dieser Effekt als Hypothese angesehen und prospektiv in anderen Studien bewertet werden ...

Beachten Sie jedoch, dass es sich um eine post-hoc-Subgruppenanalyse handelte, die aus einer randomisierten Kontrollstudie und nicht aus einer Beobachtungsstudie stammte, in der sich das Problem verschlimmert. Philip Cole verachtete die Idee, dass Beobachtungsstudien ("epidemiologische" Studien) Hypothesen in einem bewusst provokativen, aber unterhaltsamen Kommentar erzeugen können:

P Cole. Die hypothesengenerierende Maschine. Epidemiology 1993; 4 : 271 & ndash; 273.


+1 Danke für den Link (und den Retag). Ich werde in diese Richtung schauen.
chl

13

Ich möchte dem interessierten Leser nur einige Hinweise zu Datenbaggern und klinischen Studien geben . Dies soll die gute Antwort von @onestop erweitern . Ich habe versucht, Artikel zu vermeiden, die sich nur auf mehrere Vergleiche oder Designprobleme konzentrieren, obwohl Studien mit mehreren Endpunkten weiterhin herausfordernde und kontroverse Diskussionen darstellen (lange nach Rothmans Behauptungen über nutzlose Anpassungen , Epidemiology 1990, 1: 43-46; oder siehe Feises Rezension in BMC Medical Research Methodology 2002, 2: 8).

Mein Verständnis ist, dass meine Frage , obwohl ich über explorative Datenanalyse gesprochen habe , allgemeiner die Verwendung von Data Mining mit seinen potenziellen Fallstricken parallel zu hypothesengetriebenen Tests behandelt.

  1. Koh, HC und Tan, G (2005). Data Mining-Anwendungen im Gesundheitswesen . Journal of Healthcare Information Management , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Warum die meisten veröffentlichten Forschungsergebnisse falsch sind . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH und Burnham, KP (2001). Vorschläge zur Präsentation der Ergebnisse der Datenanalyse . The Journal of Wildlife Management , 65 (3), 373-378. - Dies spiegelt die Bemerkung von @ onestop darüber wider, dass wir die datengetriebene Exploration / Modellierung über den ursprünglichen Satz von Hypothesen hinaus anerkennen müssen
  4. Michels, KB und Rosner, BA (1996). Daten-Trawling: fischen oder nicht fischen . Lancet , 348, 1152 & ndash; 1153.
  5. Lord, SJ, Gebski, VJ und Keech, AC (2004). Mehrfachanalysen in klinischen Studien: fundierte Wissenschaft oder Datenbaggerung? . The Medical Journal of Australia , 181 (8), 452-454.
  6. Smith, GD und Ebrahim, S. (2002). Daten werden ausgebaggert, verzerrt oder verwechselt . BMJ , 325, 1437 & ndash; 1438.
  7. Afshartous, D und Wolf, M (2007). Vermeiden von Daten-Snooping in Modellen mit mehreren Ebenen und gemischten Effekten . Zeitschrift der Royal Statistical Society A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR und Cherry, S. (2001). Bedenken hinsichtlich der Suche nach tatsächlich unechten Effekten . Widlife Society Bulletin , 29 (1), 311-316.

Dies ist nur eine Zusammenfassung dessen, was ich bisher gelesen habe. Offensichtlich werde ich meine eigene Antwort nicht akzeptieren . Alle anderen Gedanken wären sehr dankbar.
CHL

Vielen Dank, dass Sie meine Antwort Chi akzeptiert haben, obwohl Ihre eigene Referenzliste viel besser und aktueller ist. Ich hätte wirklich an ein paar von ihnen denken sollen, als ich sie auf meiner Festplatte hatte und vielleicht sogar Teile davon gelesen habe ...
am
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.