40.000 neurowissenschaftliche Artikel könnten falsch sein

Ich habe diesen Artikel im Economist über ein anscheinend verheerendes Papier [1] gesehen, das Zweifel an "etwa 40.000 veröffentlichten [fMRI] -Studien" aufwirft. Der Fehler liege an "falschen statistischen Annahmen". Ich habe das Papier gelesen und sehe, dass es teilweise ein Problem mit mehreren Vergleichskorrekturen ist, aber ich bin kein fMRI-Experte und finde es schwierig, dem zu folgen.

Was sind die falschen Annahmen, von denen die Autoren sprechen ? Warum werden diese Annahmen getroffen? Wie können diese Annahmen getroffen werden?

Nach der Berechnung des Umschlags belaufen sich die Fördermittel für 40.000 fMRI-Papiere auf über eine Milliarde US-Dollar (Gehalt für Hochschulabsolventen, Betriebskosten usw.).

[1] Eklund et al., Cluster Failure: Warum fMRI-Schlussfolgerungen für die räumliche Ausdehnung falsch positive Raten ausgelöst haben, PNAS 2016

— R Greg Stacey
quelle

Siehe auch das Papier über die fMRT von totem Lachs. wired.com/2009/09/fmrisalmon

— Reinstate Monica

Dies ist eine wirklich feine Linie, insbesondere bei der Untersuchung von Neuropathologien, da Sie Falsch-Positives so weit einschränken können, wie Sie möchten.

— Firebug

Es gibt einen kleinen Unterschied zwischen den beiden: Das Lachspapier ist eine nette kleine Parabel über die Wichtigkeit der Korrektur mehrerer Vergleiche, die jeder schon hätte tun sollen. Im Gegensatz dazu beißt die PNAS-Ausgabe Leute, die versuchten, "das Richtige" zu tun, aber die Korrektur selbst war ein bisschen wackelig.

— Matt Krause

Ich denke, dies ist eine großartige Frage, da sie die Grundlage für zahlreiche Vergleichskorrekturen und Schlüsselannahmen bei der Durchführung dieser Art von Analysen im Kontext einer gemeinsamen Forschungsrichtung bildet. Die einzige Frage im Text ist jedoch: "Möchte jemand mit mehr Wissen als sie dies kommentieren?" Das ist etwas breit und unspezifisch. Wenn sich dies auf ein bestimmtes statistisches Problem im Rahmen der Hilfe konzentrieren könnte, wäre es besser für dieses Forum geeignet.

— Setzen Sie Monica

Vielen Dank. Ich habe die Frage bearbeitet, um sie genauer zu beschreiben. Lassen Sie mich wissen, ob ich es mehr bearbeiten sollte.

— R Greg Stacey

Auf der 40000 Figur

Die Nachrichten sind wirklich sensationell, aber die Zeitung ist wirklich gut fundiert. In meinem Labor tobten tagelange Diskussionen, alles in allem eine wirklich notwendige Kritik, die Forscher dazu bringt, ihre Arbeit in sich selbst zu betrachten. Ich empfehle die Lektüre des folgenden Kommentars von Thomas Nichols , einem der Autoren des Papiers "Cluster Failure: Warum fMRI-Schlussfolgerungen für räumliche Ausdehnung falsch positive Raten aufgeblasen haben" (entschuldigen Sie das lange Zitat).

Es gibt jedoch eine Zahl, die ich bedaure: 40.000. Bei dem Versuch, auf die Bedeutung der fMRI-Disziplin hinzuweisen, verwendeten wir eine Schätzung der gesamten fMRI-Literatur als Anzahl der Studien, die von unseren Ergebnissen beeinflusst wurden. Zu unserer Verteidigung fanden wir Probleme mit der Clustergrößeninferenz im Allgemeinen (schwerwiegend für P = 0,01 CDT, voreingenommen für P = 0,001), der dominanten Inferenzmethode, was darauf hindeutet, dass der Großteil der Literatur betroffen war. Die Zahl in der Auswirkungserklärung wurde jedoch von der populären Presse aufgegriffen und mit einem kleinen Twittersturm gespeist. Aus diesem Grund ist es meine Pflicht, zumindest eine grobe Schätzung der Anzahl der Artikel vorzunehmen, auf die sich unsere Arbeit auswirkt. Ich bin kein Bibliometriker, und das ist wirklich eine grobe Übung, aber sie vermittelt hoffentlich einen Eindruck von der Größenordnung des Problems.

Der Analysecode (in Matlab) ist unten aufgeführt, aber hier ist der Code: Basierend auf einigen vernünftigen wahrscheinlichkeitstheoretischen Berechnungen, aber möglicherweise fragilen Stichproben aus der Literatur, schätze ich, dass ungefähr 15.000 Papiere Clustergrößen-Inferenz mit Korrektur für Mehrfachtests verwenden; Davon verwenden rund 3.500 eine CDT von P = 0,01. 3.500 sind ungefähr 9% der gesamten Literatur oder besser gesagt 11% der Papiere, die Originaldaten enthalten. (Natürlich können einige dieser 15.000 oder 3.500 nichtparametrische Inferenzen verwenden, aber dies ist leider selten für fMRI - im Gegensatz dazu ist es das Standard-Inferenz-Tool für strukturelle VBM / DTI-Analysen in FSL.)

Ehrlich gesagt dachte ich, dass diese Zahl höher sein würde, erkannte aber nicht den großen Anteil von Studien, die niemals irgendeine Art von Mehrfachtestkorrektur verwendeten. (Kann korrigierte Signifikanzen nicht aufgeblasen haben, wenn Sie nicht korrigieren!) . Diese Berechnungen legen nahe, dass 13.000 Papiere keine Mehrfachtestkorrektur verwendeten. Natürlich verwenden einige von ihnen möglicherweise Regionen von Interesse oder Subvolumenanalysen, aber es sind nur wenige (dh klinische Studienergebnisse), die überhaupt keine Multiplizität aufweisen. Unsere Arbeit befasst sich nicht direkt mit dieser Gruppe, aber für Veröffentlichungen, die die Folk-Multiple-Testing-Korrektur P <0,001 & k> 10 verwendeten, zeigt unsere Arbeit, dass dieser Ansatz familienbezogene Fehlerraten von weit über 50% aufweist.

Sagen wir also, dass 3.500 Papiere „falsch“ sind? Es hängt davon ab, ob. Unsere Ergebnisse legen nahe, dass CDT P = 0,01 die P-Werte erhöht hat, aber jede Studie muss untersucht werden. Wenn die Auswirkungen wirklich stark sind, spielt es wahrscheinlich keine Rolle, ob die P-Werte verzerrt sind, und die wissenschaftlichen Schlussfolgerungen bleiben unverändert. Aber wenn die Effekte wirklich schwach sind, können die Ergebnisse tatsächlich mit Rauschen übereinstimmen . Und was ist mit den 13.000 Artikeln ohne Korrektur, die in der früheren Literatur besonders häufig vorkommen? Nein, sie sollten auch nicht von der Hand geworfen werden, aber für diese Arbeiten ist ein besonders verblüfftes Auge erforderlich, insbesondere wenn sie mit neuen Referenzen mit verbesserten methodischen Standards verglichen werden.

Er schließt auch diese Tabelle am Ende ein:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

Grundsätzlich ist SPM (Statistical Parametric Mapping, eine Toolbox für Matlab) das am häufigsten verwendete Tool für neurowissenschaftliche fMRI-Studien. Wenn Sie das Papier überprüfen, sehen Sie, dass eine CDT von P = 0,001 (der Standard) für Cluster in SPM fast die erwartete familienbezogene Fehlerrate ergibt.

Die Autoren füllten sogar eine Errata aufgrund des Wortlauts des Papiers:

Angesichts der weit verbreiteten Fehlinterpretation unserer Arbeit, Eklund et al., Cluster Failure: Warum fMRI-Schlussfolgerungen für räumliche Ausdehnung falsch positive Raten ausgelöst haben, haben wir beim PNAS-Redaktionsbüro eine Errata eingereicht:

Errata für Eklund et al., Cluster-Fehler: Warum fMRI-Schlussfolgerungen für die räumliche Ausdehnung falsch positive Raten erhöht haben. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

Zwei Sätze waren schlecht formuliert und könnten leicht als Übertreibung unserer Ergebnisse missverstanden werden.

Der letzte Satz der Aussage zur Signifikanz sollte lauten: „Diese Ergebnisse stellen die Gültigkeit einer Reihe von fMRI-Studien in Frage und können einen großen Einfluss auf die Interpretation von schwach signifikanten Neuroimaging-Ergebnissen haben.“

Der erste Satz nach der Überschrift „Die Zukunft von fMRI“ sollte lauten: „Aufgrund bedauerlicher Archivierungs- und Datenaustauschpraktiken ist es unwahrscheinlich, dass problematische Analysen wiederholt werden können.“

Diese ersetzen die beiden Sätze, die fälschlicherweise implizierten, dass unsere Arbeit alle 40.000 Veröffentlichungen betraf (siehe Bibliometrics of Cluster Inference, um zu erfahren, wie viel Literatur potenziell betroffen ist).

Nachdem die Errata zunächst abgelehnt worden waren, weil sie die Auslegung und nicht die Tatsachen korrigierten, hat PNAS zugestimmt, sie so zu veröffentlichen, wie wir sie oben eingereicht haben.

Auf den sogenannten Bug

Einige Nachrichten erwähnten auch einen Fehler als Ursache für die Ungültigkeit der Studien. In der Tat hat eines der AFNI-Tools die Schlussfolgerungen unterkorrigiert , und dies wurde behoben, nachdem der Vordruck in arXiv veröffentlicht wurde .

Statistische Inferenz bei der funktionellen Bildgebung

Functional Neuroimaging umfasst viele Techniken zur Messung der neuronalen Aktivität im Gehirn (z. B. fMRI, EEG, MEG, NIRS, PET und SPECT). Diese basieren auf unterschiedlichen Kontrastmechanismen. Die fMRT basiert auf dem blutsauerstoffspiegelabhängigen Kontrast (BOLD). Bei der aufgabenbasierten fMRT verbrauchen die Neuronen im Gehirn, die für den Empfang dieser Stimulation verantwortlich sind, Energie, wodurch die hämodynamische Reaktion ausgelöst wird, die das Magnetresonanzsignal ( ) in der Nähe des rekrutierten Mikros ändert -Vaskularisation. $\approx 5\%$

Mithilfe eines verallgemeinerten linearen Modells (GLM) identifizieren Sie, welche Voxelsignal-Zeitreihen mit dem Design des Paradigmas Ihres Experiments korreliert sind (normalerweise eine boolesche Zeitreihe, die mit einer kanonischen hämodynamischen Antwortfunktion verknüpft ist, es gibt jedoch Variationen).

In diesem GLM sehen Sie also, wie sehr jede Voxel-Zeitreihe der Aufgabe ähnelt. Angenommen, Sie haben zwei Gruppen von Personen: Patienten und Kontrollen in der Regel. Der Vergleich der GLM-Werte zwischen den Gruppen könnte verwendet werden, um zu zeigen, wie der Zustand der Gruppen das "Aktivierungs" -Muster ihres Gehirns moduliert.

Ein voxelweiser Vergleich zwischen den Gruppen ist möglich, aber aufgrund der dem Gerät eigenen Punktverteilungsfunktion und eines glättenden Vorverarbeitungsschritts ist es nicht sinnvoll zu erwarten, dass Voxel alle Informationen einzeln übertragen. Der Unterschied in den Voxeln zwischen den Gruppen sollte in der Tat über benachbarte Voxel verteilt sein.

Es wird also ein clusterweiser Vergleich durchgeführt, dh nur Unterschiede zwischen Gruppen, die sich zu Clustern zusammenschließen, werden berücksichtigt. Diese Cluster-Extent-Schwelle ist die beliebteste Methode zur Korrektur multipler Vergleiche in fMRI-Studien. Das Problem liegt hier.

SPM und FSL hängen von der Gaußschen Zufallsfeldtheorie (RFT) für die FWE-korrigierte voxel- und clusterweise Inferenz ab. Die clusterweise RFT-Inferenz hängt jedoch von zwei zusätzlichen Annahmen ab. Die erste Annahme ist, dass die räumliche Glätte des fMRT-Signals über das Gehirn konstant ist, und die zweite Annahme ist, dass die räumliche Autokorrelationsfunktion eine spezifische Form hat (eine quadratische Exponentialfunktion) (30).

In SPM müssen Sie mindestens eine nominelle FWE-Rate sowie einen clusterdefinierenden Schwellenwert (CDT) festlegen. Grundsätzlich findet SPM Voxel, die in hohem Maße mit der Aufgabe korrelieren, und nach der Schwellwertbildung mit dem CDT werden benachbarte Voxel zu Clustern aggregiert. Diese Clustergrößen werden mit der erwarteten Clustergröße aus der Random Field Theory (RFT) verglichen, wenn die FWER-Menge [ 1 ] gegeben ist.

Die Zufallsfeldtheorie erfordert, dass die Aktivitätskarte glatt ist und eine gute Gitterannäherung an zufällige Felder darstellt. Dies hängt mit dem Grad der Glättung zusammen, der auf die Volumes angewendet wird. Die Glättung wirkt sich auch auf die Annahme aus, dass die Residuen normalverteilt sind, da die Daten durch die Glättung nach dem zentralen Grenzwertsatz mehr Gaußscher werden.

Die Autoren haben in [ 1 ] gezeigt, dass die erwarteten Clustergrößen von RFT im Vergleich zu den Schwellenwerten für die Clusterausdehnung, die beim Random Permutation Testing (RPT) ermittelt wurden, sehr gering sind.

In ihrer jüngsten Veröffentlichung wurden Daten zum Ruhezustand (eine weitere Modalität von fMRI, bei der die Teilnehmer angewiesen werden, an nichts Bestimmtes zu denken) verwendet, als ob Personen während der Bilderfassung eine Aufgabe ausführten, und der Gruppenvergleich wurde mit Voxel- und Cluster durchgeführt -weise. Die beobachtete Rate falsch positiver Fehler (dh wenn Sie Unterschiede in der Signalantwort auf eine virtuelle Aufgabe zwischen Gruppen beobachten) sollte einigermaßen niedriger sein als die erwartete FWE-Rate, die auf . Eine millionenfache Wiederholung dieser Analyse an zufällig ausgewählten Gruppen mit unterschiedlichen Paradigmen ergab, dass die meisten beobachteten FWE-Raten jedoch höher als akzeptabel waren. $\alpha = 0.05$

@amoeba hat in den Kommentaren diese beiden sehr relevanten Fragen aufgeworfen:

(1) Das Patent von Eklund et al. PNAS-Papier spricht von einem "nominalen 5% -Gehalt" aller Tests (siehe z. B. horizontale schwarze Linie in Abb. 1). Die CDT in derselben Figur variiert jedoch und kann beispielsweise 0,01 und 0,001 betragen. In welcher Beziehung steht der CDT-Schwellenwert zur nominellen Fehlerrate Typ I? Das verwirrt mich. (2) Haben Sie Karl Fristons Antwort http://arxiv.org/abs/1606.08199 gesehen ? Ich habe es gelesen, bin mir aber nicht ganz sicher, was sie sagen: Sehe ich richtig, dass sie mit Eklund et al. Übereinstimmen? aber sagen, dass dies ein "bekanntes" Problem ist?

(1) Gute Frage. Ich habe tatsächlich meine Referenzen überprüft. Mal sehen, ob ich es jetzt klarer machen kann. Die clusterweise Inferenz basiert auf dem Ausmaß der Cluster, die sich bilden, nachdem ein primärer Schwellenwert (der CDT, der willkürlich ist ) angewendet wurde. In der Sekundäranalyse wird ein Schwellenwert für die Anzahl der Voxel pro Cluster angewendet. Diese Schwelle basiert auf der erwarteten Verteilung von Null-Cluster-Ausmaßen, die aus der Theorie (z. B. RFT) geschätzt werden kann, und legt eine nominelle FWER fest. Eine gute Referenz ist [ 2 ].

(2) Vielen Dank für diesen Hinweis, habe ihn vorher nicht gesehen. Flandin & Friston argumentieren, Eklund et al. bestätigte RFT-Folgerungen, weil sie im Wesentlichen zeigten, dass die Ergebnisse bei Einhaltung ihrer Annahmen (in Bezug auf CDT und Glättung) unvoreingenommen sind. Vor diesem Hintergrund zeigen die neuen Ergebnisse, dass unterschiedliche Praktiken in der Literatur die Inferenz tendenziell verzerren, da sie die Annahmen von RFT auflöst.

Auf den mehrfachen Vergleichen

Es ist auch bekannt, dass viele neurowissenschaftliche Studien mehrfache Vergleiche nicht korrigieren. Schätzungen gehen von 10% bis 40% der Literatur aus. Diese Behauptung lässt sich jedoch nicht erklären. Jeder weiß, dass diese Papiere eine fragile Gültigkeit haben und möglicherweise sehr hohe Falsch-Positiv-Quoten aufweisen.

Auf der FWER mehr als 70%

Die Autoren berichteten auch über ein Verfahren, bei dem FWER über 70% erzeugt wird. Dieses "Volks" -Verfahren besteht darin, das CDT anzuwenden, um nur hoch signifikante Cluster beizubehalten, und dann einen anderen willkürlich gewählten Schwellenwert für die Clustergröße (in Anzahl der Voxel) anzuwenden. Dies wird manchmal als "Set-Inferenz" bezeichnet, hat schwache statistische Grundlagen und führt möglicherweise zu den am wenigsten zuverlässigen Ergebnissen.

Frühere Berichte

Dieselben Autoren hatten bereits in Einzelanalysen über Probleme mit der Validität von SPM [ 1 ] berichtet. Es gibt auch andere zitierte Werke in diesem Bereich.

Interessanterweise waren mehrere Berichte über Analysen auf Gruppen- und Einzelebene auf der Grundlage simulierter Daten konservativ, die auf die RFT-Schwelle schließen ließen. Mit den jüngsten Fortschritten bei der Verarbeitungsleistung kann RPT für reale Daten viel einfacher durchgeführt werden und weist große Unterschiede zu RFT auf.

UPDATE: 18. Oktober 2017

Ein Kommentar zu "Cluster Failure" ist letzten Juni aufgetaucht [ 3 ]. Dort haben Müller et al. argumentieren, dass die in Eklund et al. präsentierten Ergebnisse möglicherweise auf eine bestimmte Bildverarbeitungstechnik zurückzuführen sind, die in ihrer Studie verwendet wurde. Grundsätzlich haben sie die funktionalen Bilder vor dem Glätten auf eine höhere Auflösung gebracht (obwohl dies wahrscheinlich nicht von jedem Forscher durchgeführt wird, ist dies in den meisten fMRI-Analyseprogrammen ein Routineverfahren). Sie stellen auch fest, dass Flandin & Friston nicht. Ich habe Eklund tatsächlich im selben Monat auf dem Jahrestreffen der Organisation für Human Brain Mapping (OHBM) in Vancouver gesehen, aber ich kann mich an keine Kommentare zu diesem Thema erinnern, aber es scheint für die Frage von entscheidender Bedeutung zu sein.

[1] A. Eklund, M. Andersson, C. Josephson, M. Johannesson & H. Knutsson (2012). Ergibt eine parametrische fMRI-Analyse mit SPM gültige Ergebnisse? - Eine empirische Studie mit 1484 Restdatensätzen. NeuroImage, 61 (3), 565 & ndash; 578.

[2] Woo, CW, Krishnan, A. & Wager, TD (2014). Cluster-Extent-based Thresholding in fMRI-Analysen: Fallstricke und Empfehlungen. Neuroimage, 91, 412 & ndash; 419.

[3] Müller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Kommentar: Cluster-Ausfall: Warum fMRI-Schlussfolgerungen für räumliche Ausdehnung falsch-positive Raten erhöht haben. Frontiers in Human Neuroscience, 11.

— Firebug
quelle

@Qroid Ja, für den ersten Teil gilt die Annahme nicht (und das ist wahrscheinlich der Grund für die gute Leistung des nicht-parametrischen Permutationstests). Die Cluster sind Cluster von Voxeln, dh benachbarte Voxel, die den gleichen Effekt zeigen. Es gibt einen p-Wert zum Definieren eines Clusters (der clusterdefinierende Schwellenwert).

— Firebug

Diese Antwort konzentriert sich hauptsächlich darauf, ob es sich um 40000 oder eine andere Zahl handelt, aber ich denke, es wäre für viele Leute hier interessanter, wenn Sie die Hauptdebatte zusammenfassen könnten (was sind die Cluster? Was ist das Problem mit räumlichen Korrelationen für Hypothesentests? Hat niemand wirklich darüber nachdenken, bevor? etc.)

— Amöbe sagt Reinstate Monica

Danke noch einmal. Nach einem kurzen Blick auf Woo et al. 2014 bin ich mir jetzt nicht mehr sicher, warum Eklund et al. schaffte es in PNAS und produzierte folglich einen solchen Sh * tstorm in der populären Presse und in den Blogs. Waren nicht Woo et al. mehr oder weniger dasselbe sagen? Hier ist es, direkt in ihrem "Highlights" -Blob: "Eine weitere Gefahr ist die Erhöhung von False Positives, wenn eine liberale primäre Schwelle verwendet wird".

— Amöbe sagt Reinstate Monica

Aha. Ich verstehe also, dass jetzt wissenschaftlich nicht viel passiert ist: Das Problem mit liberalen CDTs ist seit Jahren bekannt, wurde in mehreren Veröffentlichungen diskutiert und in verschiedenen Simulationen von verschiedenen Forschern gezeigt. (Dennoch verwendeten einige Forscher weiterhin solche gefährlich liberalen CDTs.) Eklund et al. 2016 hatte ich das Glück, in einem "hochkarätigen" Journal veröffentlicht zu werden und boo! - Alle reden jetzt darüber, als ob es eine Offenbarung wäre.

— Amöbe sagt Reinstate Monica

@amoeba Die Neurowissenschaft braucht ein statistisches Vorgehen, ähnlich wie in der angewandten Psychologie (vielleicht nicht so drastisch wie das Verbot von p-Werten). Viele Veröffentlichungen, die statistische Signifikanz beanspruchen, haben keine statistische Strenge, die Leute benutzen die Werkzeuge und Parameter, die "Ergebnisse erscheinen lassen".

— Firebug