Durchführen eines statistischen Tests nach der Datenvisualisierung - Datenbaggerung?

Ich werde diese Frage anhand eines Beispiels vorschlagen.

Angenommen, ich habe einen Datensatz, z. B. den Preisdatensatz für Wohnimmobilien in Boston, in dem ich kontinuierliche und kategoriale Variablen habe. Hier haben wir eine "Qualitäts" -Variable von 1 bis 10 und den Verkaufspreis. Ich kann die Daten in Häuser mit "niedriger", "mittlerer" und "hoher" Qualität unterteilen, indem ich (willkürlich) Grenzwerte für die Qualität erzeuge. Mit diesen Gruppierungen kann ich dann Histogramme des Verkaufspreises gegeneinander aufzeichnen. Wie so:

Hier ist "niedrig" , und "hoch" ist in der "Qualitätsbewertung". Wir haben jetzt eine Verteilung der Verkaufspreise für jede der drei Gruppen. Es ist klar, dass es bei den Häusern mittlerer und hoher Qualität einen Unterschied im Standortzentrum gibt. Jetzt, nachdem ich das alles getan habe, denke ich "Hm. Es scheint einen Unterschied in der Ortsmitte zu geben! Warum mache ich keinen T-Test mit den Mitteln?". Dann erhalte ich einen p-Wert, der die Nullhypothese, dass es keinen Mittelwertunterschied gibt, korrekt zu verwerfen scheint. $\leq 3$ $>7$

Nehmen wir an, ich hätte nichts im Sinn, um diese Hypothese zu testen, bis ich die Daten gezeichnet habe.

Werden diese Daten ausgebaggert?

Gibt es immer noch Datenausgrabungen, wenn ich dachte: "Hm, ich wette, die höherwertigen Häuser kosten mehr, da ich ein Mensch bin, der zuvor in einem Haus gelebt hat. Ich werde die Daten plotten. Ah ha! Sieht anders aus! Zeit zum T-Test! "

Es ist natürlich keine Datenausgrabung, wenn der Datensatz mit der Absicht gesammelt wurde, diese Hypothese von Anfang an zu testen. Aber oft muss man mit uns gegebenen Datensätzen arbeiten und muss "nach Mustern suchen". Wie vermeidet jemand das Ausbaggern von Daten angesichts dieser vagen Aufgabe? Hold-Out-Sets zum Testen von Daten erstellen? Gilt Visualisierung als Schnüffeln für die Möglichkeit, eine von den Daten vorgeschlagene Hypothese zu testen?

— Marcel
quelle

Antworten:

Nicht einverstanden sein mit der Antwort von @ ingolifs / einen Kontrapunkt setzen: Ja, die Visualisierung Ihrer Daten ist unerlässlich. Bevor Sie sich jedoch für eine Analyse entscheiden, führen Sie die Visualisierung in den Garten der Gabelpfade von Gelman und Loken . Dies ist nicht dasselbe wie Daten-Dredging oder P-Hacking, teils absichtlich (der GoFP ist normalerweise gut gemeint) und teils, weil Sie möglicherweise nicht mehr als eine Analyse durchführen. Aber es ist eine Form des Schnüffelns: Da Ihre Analyse datenabhängig ist, kann dies zu falschen oder überbewussten Schlussfolgerungen führen.

Sie sollten in gewisser Weise bestimmen, was Ihre beabsichtigte Analyse ist (z. B. "Häuser von hoher Qualität sollten einen höheren Preis haben") und diese aufschreiben (oder sogar offiziell vorregistrieren), bevor Sie sich Ihre Daten ansehen (es ist in Ordnung, sich Ihre Vorhersagevariablen in anzusehen) Voraus, nur nicht die Antwortvariable (n), aber wenn Sie wirklich keine A-priori- Ideen haben, wissen Sie nicht einmal, welche Variablen Prädiktoren und welche Antworten sein könnten); Wenn Ihre Daten andere oder zusätzliche Analysen nahelegen, können Sie in Ihrem Bericht angeben, was Sie ursprünglich vorhatten und was (und warum) Sie letztendlich getan haben.

Wenn Sie wirklich reine Exploration betreiben (dh Sie haben keine A-priori- Hypothesen, Sie möchten nur sehen, was in den Daten enthalten ist):

Ihre Gedanken, eine Probe zur Bestätigung herauszuhalten, sind gut.
- In meiner Welt (ich arbeite nicht mit riesigen Datenmengen) wäre der Auflösungsverlust aufgrund einer geringeren Stichprobengröße qualvoll
- Sie müssen bei der Auswahl Ihrer Holdout-Stichprobe etwas vorsichtig sein, wenn Ihre Daten in irgendeiner Weise strukturiert sind (geografisch, Zeitreihen usw. usw.). Eine Unterabtastung, bei der die Daten nicht eindeutig sind, führt zu Überbewusstsein (siehe Wenger- und Olden- Methoden in Ecology and Evolution 2012). Sie können also geografische Einheiten auswählen, um sich zu behaupten ( ein Beispiel finden Sie unter DJ Harris- Methoden in Ecology and Evolution 2015).
Sie können zugeben, dass Sie rein explorativ sind. Idealerweise würden Sie in diesem Fall auf p-Werte verzichten, aber wenn Sie Ihrem Publikum zumindest mitteilen, dass Sie im GoFP wandern, wissen Sie, dass sie die p-Werte mit enormen Salzkörnern messen können.

Meine Lieblingsreferenz für "sichere statistische Praktiken" ist Harrells Regressionsmodellierungsstrategien (Springer); Er legt strenge, aber praktische Best Practices für Inferenz vs. Vorhersage vs. Exploration fest.

— Ben Bolker
quelle

Sehr gut gesagt! Ich gehe davon aus, dass ich in Zukunft auf diese Antwort verweisen werde.

— Great38

Genau die Art von Antwort, nach der ich gesucht habe, danke. Ich habe diese Antwort als Antwort gutgeschrieben. Kennen Sie Ressourcen, die sichere statistische Praktiken vermitteln? Vielleicht etwas umfangreicher als die (ausgezeichneten) Artikel, die Sie veröffentlicht haben

— Marcel

Gute Antwort (+1), aber ich bin nicht der Meinung, dass dies anders ist als das Ausgraben von Daten. Absicht ist irrelevant - der Effekt ist der gleiche.

— Setzen Sie Monica

Ich denke tatsächlich, es lohnt sich, die Unterscheidung zwischen verschiedenen Formen des Schnüffelns beizubehalten. Das Ausbaggern ist vermutlich schwerwiegender, weil es (1) mehrere explizite Tests anstelle mehrerer impliziter Tests und (2) bedingte / fortgesetzte Tests umfasst, bis p <0,05 (oder was auch immer) erreicht ist. Der qualitative Effekt ist sicherlich der gleiche.

— Ben Bolker

Die Visualisierung der Daten ist ein unverzichtbarer Bestandteil der Analyse und eines der ersten Dinge, die Sie mit einem unbekannten Datensatz tun sollten. Ein kurzer Blick auf die Daten kann Aufschluss über die nächsten Schritte geben. In der Tat sollte es ziemlich offensichtlich sein, wenn man sich die Grafik ansieht, dass die Mittelwerte unterschiedlich sind, und ich bin nicht sicher, warum ein T-Test erforderlich war, um dies zu bestätigen - die Mittelwerte sind ausreichend voneinander getrennt, sodass die Grafik selbst alle Beweise darstellt, die ich möchte benötigen.

$R^2$

Ich denke, dass es hier eine tiefere Frage gibt. Wie bewahren Sie eine zenartige Neutralität und vermeiden Verzerrungen beim wissenschaftlichen Umgang mit Daten? Die Antwort ist, dass du es nicht tust. Oder besser gesagt, du musst nicht. Es ist völlig natürlich und akzeptabel, Ahnungen und Hypothesen zu bilden und eine mentale Darstellung der Bedeutung der Daten zu erstellen, vorausgesetzt, Sie wissen, dass Sie dies tun, und Sie sind mental bereit, all diese Hypothesen zu überdenken, wenn Sie mit widersprüchlichen Daten konfrontiert werden.

— Ingolifs
quelle

Das Visualisieren von Daten vor dem Ausführen von Tests kann in diesem speziellen Fall harmlos sein. Als nächstes würde man jedoch eine andere Dimension visualisieren ... und eine andere ... und sich Streudiagramme ansehen ... und bald genug wird man etwas finden, das "offensichtlich genug" aussieht, so dass ein formaler Test und eine Erzählung selbstverständlich sind. Oh ja, das Ausbaggern von Daten ist definitiv etwas, das Sie leicht versehentlich tun können. Siehe Gelmans "Garten der Gabelpfade" .

— S. Kolassa - Wiedereinsetzung von Monica