ZUSAMMENFASSUNG: Wenn "P-Hacking" allgemein als "forking path" von a la Gelman verstanden werden soll, lautet die Antwort auf seine Verbreitung, dass es nahezu universell ist.
Andrew Gelman schreibt gerne über dieses Thema und hat in letzter Zeit ausführlich darüber in seinem Blog geschrieben. Ich stimme ihm nicht immer zu, aber ich mag seine Sicht auf Hacking. Hier ist ein Auszug aus der Einleitung zu seinem Artikel „Garden of Forking Paths“ (Gelman & Loken 2013; eine Version erschien in American Scientist 2014; siehe auch Gelmans kurzen Kommentar zur Erklärung der ASA), Schwerpunkt:p
Dieses Problem wird manchmal als "p-Hacking" oder "Forscherfreiheitsgrade" bezeichnet (Simmons, Nelson und Simonsohn, 2011). In einem kürzlich erschienenen Artikel haben wir von "Fischereiexpeditionen [...]" gesprochen. Wir haben jedoch das Gefühl, dass der Begriff „Fischen“ insofern unglücklich war, als er ein Bild eines Forschers hervorruft, der einen Vergleich nach dem anderen durchführt und die Schnur wiederholt in den See wirft, bis ein Fisch hängen bleibt. Wir haben keinen Grund zu der Annahme, dass Forscher dies regelmäßig tun. Wir glauben, dass die Forscher aufgrund ihrer Annahmen und Daten eine vernünftige Analyse durchführen können. Wären die Daten jedoch anders ausgefallen, hätten sie auch andere Analysen durchführen können, die unter diesen Umständen genauso vernünftig waren.
Wir bedauern die Verbreitung der Begriffe "Fischen" und "P-Hacking" (und sogar "Freiheitsgrade von Forschern") aus zwei Gründen: Erstens, weil Forscher irreführende Implikationen haben, wenn solche Begriffe zur Beschreibung einer Studie verwendet werden probierten bewusst viele verschiedene Analysen an einem einzigen Datensatz aus; und zweitens, weil es dazu führen kann, dass Forscher, die wissen, dass sie nicht viele verschiedene Analysen durchgeführt haben, fälschlicherweise glauben, dass sie nicht so stark den Problemen der Freiheitsgrade von Forschern ausgesetzt sind. [...]
Unser entscheidender Punkt ist, dass es möglich ist, mehrere potenzielle Vergleiche im Sinne einer Datenanalyse durchzuführen, deren Details in hohem Maße von Daten abhängen, ohne dass der Forscher bewusst fischen oder mehrere p-Werte untersuchen muss .
Also: Gelman mag den Begriff P-Hacking nicht, weil er impliziert, dass die Forschungen aktiv betrogen haben. Während die Probleme einfach deshalb auftreten können, weil die Forscher nach Betrachtung der Daten, dh nach einer explorativen Analyse, auswählen, welche Tests durchgeführt / gemeldet werden sollen.
Mit einigen Erfahrungen in der Biologie kann ich mit Sicherheit sagen, dass das jeder tut. Jeder (ich eingeschlossen) sammelt einige Daten mit nur vagen A-priori-Hypothesen, führt ausführliche explorative Analysen durch, führt verschiedene Signifikanztests durch, sammelt weitere Daten, führt die Tests durch und führt sie erneut durch und meldet schließlich einige Werte im endgültigen Manuskript. All dies geschieht, ohne aktiv zu schummeln, dummes Kirschpflücken im Stil von xkcd-jelly beans zu machen oder bewusst irgendetwas zu hacken.p
Also , wenn „p-Hacking“ ist im Großen und Ganzen zu verstehen, a la Gelmans Forking Pfade, die Antwort darauf , wie weit verbreitet ist, ist , dass es fast universell ist.
Die einzigen Ausnahmen, die in den Sinn kommen, sind vollständig vorregistrierte Replikationsstudien in der Psychologie oder vollständig vorregistrierte medizinische Studien.
Spezifische Beweise
Amüsanterweise haben einige Leute Forscher befragt, um herauszufinden, dass viele zugeben, dass sie irgendeine Art von Hacking betreiben ( John et al., 2012, Messung der Häufigkeit fragwürdiger Forschungspraktiken mit Anreizen für Wahrheitsfindung ):
Ansonsten hat jeder von der sogenannten "Replikationskrise" in der Psychologie gehört: Mehr als die Hälfte der in den Top-Psychologie-Journalen veröffentlichten aktuellen Studien repliziert nicht ( Nosek et al. 2015, Schätzung der Reproduzierbarkeit der Psychologie ). (Diese Studie war in letzter Zeit wieder in allen Blogs vertreten, da in der Ausgabe von Science vom März 2016 ein Kommentar veröffentlicht wurde, der versucht, Nosek et al. Zu widerlegen, sowie eine Antwort von Nosek et al. Die Diskussion wurde an anderer Stelle fortgesetzt, siehe Beitrag von Andrew Gelman und dem RetractionWatch-Post , auf den er verlinkt. Um es höflich auszudrücken, die Kritik ist nicht überzeugend.)
Update November 2018: Kaplan und Irvin, 2017, die Wahrscheinlichkeit , dass große klinische NHLBI-Studien keine Auswirkungen haben, hat im Laufe der Zeit zugenommen. Dies zeigt, dass der Anteil der klinischen Studien, in denen keine Ergebnisse gemeldet wurden, von 43% auf 92% gestiegen ist, nachdem eine Vorregistrierung erforderlich wurde:
P Wert-Verteilungen in der Literatur
Head et al. 2015
Von Head et al. Habe ich noch nichts gehört . studieren Sie vorher, aber haben Sie jetzt einige Zeit aufgewendet, die umgebende Literatur durchzublättern. Ich habe auch einen kurzen Blick auf ihre Rohdaten geworfen .
Head et al. lud alle Open-Access-Papiere von PubMed herunter und extrahierte alle im Text angegebenen p-Werte, wobei 2,7 Mio. p-Werte erhalten wurden. Von diesen wurden 1,1 Mio. als und nicht als . Von diesen haben Head et al. nahm zufällig einen p-Wert pro Papier, aber dies scheint die Verteilung nicht zu ändern. So sieht die Verteilung aller 1,1-Millionen-Werte aus (zwischen und ):p=ap<a00.06
Ich habe bin width verwendet, und man kann eine Menge vorhersehbarer Rundungen in den angegebenen Werten sehen. Nun haben Head et al. Gehen Sie wie folgt vor: Sie vergleichen die Anzahl der Werte im Intervall und im Intervall . Die erstere Zahl fällt (deutlich) größer aus und wird als Beweis für Hacking angesehen. Wenn man blinzelt, sieht man es an meiner Figur.0.0001pp(0.045,0.5)(0.04,0.045)p
Ich finde das aus einem einfachen Grund sehr wenig überzeugend. Wer möchte seine Befunde mit melden ? Tatsächlich scheinen viele Menschen genau das zu tun, aber es erscheint dennoch naheliegend, diesen unbefriedigenden Grenzwert zu vermeiden und stattdessen eine andere signifikante Ziffer zu melden, z. B. (es sei denn natürlich, es ist ). Ein gewisser Überschuss an Werten, der nahe bei kann also durch die Rundungspräferenzen des Forschers erklärt werden.p=0.05p=0.048p=0.052p0.05
Und abgesehen davon ist der Effekt winzig .
(Der einzige starke Effekt, den ich auf diese Abbildung sehe, ist ein deutlicher Abfall der Wert-Dichte unmittelbar nach . Dies ist eindeutig auf die Publikationsverzerrung zurückzuführen.)p0.05
Sofern ich nichts verpasst habe, haben Head et al. Diskutieren Sie nicht einmal diese mögliche alternative Erklärung. Sie zeigen auch kein Histogramm der Werte.p
Es gibt eine Reihe von Zeitungen, die Head et al. Kritisieren. In diesem unveröffentlichten Manuskript argumentiert Hartgerink, dass Head et al. hätte und in ihren Vergleich einbeziehen sollen (und wenn sie dies getan hätten, hätten sie ihre Wirkung nicht gefunden). Ich bin mir darüber nicht sicher; es klingt nicht sehr überzeugend. Es wäre viel besser, wenn wir die Verteilung der "rohen" Werte irgendwie ohne Rundung untersuchen könnten.p=0.04p=0.05p
Verteilungen von Werten ohne Rundungp
In diesem PeerJ-Papier von 2016 (Preprint 2015) haben Hartgerink et al. extrahiert p-Werte von den vielen Papieren in Top-Psychologie Zeitschriften und genau das tun: sie neu berechnen genaue - Werte aus der ausgewiesenen -, -, - usw. Statistikwerte; Diese Verteilung ist frei von Rundungsartefakten und weist keinerlei Anstieg in Richtung 0,05 auf (Abbildung 4):ptFχ2
Ein sehr ähnlicher Ansatz wird von Krawczyk 2015 in PLoS One verfolgt, der 135.000 Werte aus den führenden experimentellen Psychologie-Journalen extrahiert . So sieht die Verteilung für die angegebenen (links) und neu berechneten (rechts) Werte aus:pp
Der Unterschied ist auffällig. Das linke Histogramm zeigt einige seltsame Dinge, die um , aber auf dem rechten ist es weg. Dies bedeutet, dass dieses seltsame Zeug auf die Präferenzen der Leute zurückzuführen ist, Werte um zu melden und nicht auf Hacking.p=0.05p≈0.05p
Mascicampo und Lalande
Es scheint, dass die ersten, die den angeblichen Überschuss an Werten knapp unter 0,05 beobachteten, Masicampo & Lalande 2012 waren , das drei Top-Zeitschriften in der Psychologie ansah :p
Das sieht zwar beeindruckend aus, aber Lakens 2015 ( Preprint ) argumentiert in einem veröffentlichten Kommentar, dass dies nur dank der irreführenden exponentiellen Anpassung beeindruckend erscheint . Siehe auch Lakens 2015, Zu den Herausforderungen, Schlussfolgerungen aus p-Werten knapp unter 0,05 und den darin enthaltenen Referenzen zu ziehen.
Wirtschaft
Brodeur et al. 2016 (der Link führt zum Preprint 2013) machen das Gleiche für die Wirtschaftsliteratur. Der Blick auf die drei Wirtschaftsjournale extrahiert 50.000 Testergebnisse, konvertiert sie alle in Punkte (wobei gemeldete Koeffizienten und Standardfehler nach Möglichkeit und Werte verwendet werden, wenn sie nur gemeldet wurden) und liefert Folgendes:zp
Dies ist etwas verwirrend, da sich kleine Werte rechts und große Werte links befinden. Wie die Autoren in der Zusammenfassung schreiben, "weist die Verteilung der p-Werte eine Kamelform mit häufigen p-Werten über 0,25 auf" und "ein Tal zwischen 0,25 und 0,10". Sie argumentieren, dass dieses Tal ein Zeichen für etwas Fischiges ist, aber dies ist nur ein indirekter Beweis. Es kann auch einfach an einer selektiven Berichterstattung liegen, wenn große p-Werte über 0,25 als Anzeichen für einen Mangel an Wirkung gemeldet werden, aber p-Werte zwischen 0,1 und 0,25 weder hier noch da sind und dazu neigen weggelassen werden. (Ich bin mir nicht sicher, ob dieser Effekt in der biologischen Literatur vorhanden ist oder nicht, da sich die obigen Darstellungen auf das Intervall .)ppp < 0,05p<0.05
Falsch beruhigend?
Basierend auf all dem oben Gesagten ist meine Schlussfolgerung, dass ich keinen starken Hinweis auf Hacking in Werteverteilungen in der gesamten biologischen / psychologischen Literatur sehe . Es gibt viele Beweise für selektive Berichterstattung ist, Publikations - Bias, Runden -Werten nach unten auf und andere lustige Rundungseffekte, aber ich stimme nicht mit Schlussfolgerungen des Leiters et al .: dort unten keine verdächtige Beule ist .ppp0,05 0,050.050.05
Uri Simonsohn argumentiert, dass dies "fälschlicherweise beruhigend" sei . Eigentlich zitiert er diese Artikel unkritisch, merkt dann aber an, dass "die meisten p-Werte viel kleiner sind als 0,05". Dann sagt er: "Das ist beruhigend, aber falsch beruhigend". Und hier ist warum:
Wenn wir wissen wollen, ob Forscher ihre Ergebnisse p-hacken, müssen wir die mit ihren Ergebnissen verbundenen p-Werte untersuchen, die sie vielleicht zuerst p-hacken möchten. Um unvoreingenommen zu sein, dürfen die Proben nur Beobachtungen der interessierenden Bevölkerung enthalten.
Die meisten in den meisten Veröffentlichungen angegebenen p-Werte sind für das strategische Verhalten von Interesse irrelevant. Kovariaten, Manipulationsprüfungen, Haupteffekte bei Studien zum Testen von Interaktionen usw. Einschließlich dieser werden P-Hacking unterschätzt und der Beweiswert von Daten überschätzt. Die Analyse aller p-Werte stellt eine andere, eine weniger sinnvolle Frage. Anstatt "P-Hack Forscher, was sie studieren?", Fragen wir "P-Hack Forscher, was sie studieren?"
Das macht total Sinn. Das Betrachten aller gemeldeten Werte ist viel zu laut. Uris Kurve ( Simonsohn et al. 2013 ) zeigt auf anschauliche Weise, was man sehen kann, wenn man sorgfältig ausgewählte Werte betrachtet. Sie wählten 20 Psychologiepapiere basierend auf einigen verdächtigen Schlüsselwörtern aus (die Autoren dieser Papiere berichteten über Tests, die eine Kovariate kontrollierten, und berichteten nicht darüber, was passiert, ohne sie zu kontrollieren) und nahmen dann nur Werte, die die wichtigsten Ergebnisse testeten. So sieht die Distribution aus (links):ppp ppp
Starker linker Versatz deutet auf starkes Hacking hin.p
Schlussfolgerungen
Ich würde sagen, dass wir wissen, dass es eine Menge Hacking geben muss , hauptsächlich vom Typ Forking-Paths, den Gelman beschreibt. wahrscheinlich in dem Maße, in dem veröffentlichte Werte nicht wirklich zum Nennwert genommen werden können und vom Leser um einen wesentlichen Bruchteil "abgezinst" werden sollten. Diese Einstellung scheint jedoch weitaus subtilere Auswirkungen zu haben als nur eine Beule in der gesamten Werteverteilung knapp unter und kann mit einer solchen stumpfen Analyse nicht wirklich erkannt werden.ppp 0,05 p0.05