Was ist die Ursache für das Problem der Mehrfachvergleiche?

Ich verstehe die Intuition hinter dem MCP, aber ich habe Probleme, genau die Ursache zu bestimmen, was vermieden oder zumindest erklärt werden sollte.

In seiner klarsten Definition stimme ich zu, dass ich, wenn ich Daten nehme und einen Brute-Force-Ansatz anwende, um alle möglichen Nullhypothesen zu versuchen, irgendwann eine finde, die mit einem beliebigen alfa (z. B. 5%) abgelehnt werden kann, und deklariere eine Entdeckung.

Aber in vielen Definitionen von MCP lese ich so etwas wie "Je mehr Sie testen, desto mehr werden Sie wahrscheinlich finden", und obwohl ich damit einverstanden bin, sehe ich es nicht unbedingt als Problem (oder zumindest als Wurzel des Problems). Wenn beispielsweise viele Forscher dasselbe Phänomen mit denselben verfügbaren Daten analysieren und dabei jeweils ihre eigene Hypothese testen, ist es wahrscheinlicher, dass eine Entdeckung erzielt wird (als wenn es nur ein Forscher wäre). Bedeutet dies, dass sie sich bewerben sollten? irgendeine Art von Korrektur an ihrem Ziel-Alfa (z. B. eine Bonferroni-Korrektur )? Ich gehe davon aus, dass die Antwort Nein lautet, aber dann wird nicht klar, warum ein einzelner Forscher, der viele Hypothesen testet, dies tun sollte (wieder einverstanden, dass das Testsystem missbraucht werden kann und es eine Korrektur dafür geben sollte).

Wann wird diese erhöhte Chance, eine Entdeckung zu finden (eine Nullhypothese abzulehnen), zu einem Problem? Wenn ich über die Ursachen nachdenke, fallen mir einige Faktoren ein, aber ich bin mir nicht sicher, welcher von ihnen (oder andere, die hier nicht aufgeführt sind) eher mit der Ursache dieses Problems zusammenhängt:

Post-hoc-Analyse : Ich verstehe, dass die Hypothesen (vorzugsweise) a priori formuliert werden sollten, wenn nicht, schaue ich mir nur die Daten an, um zu erraten, welche Hypothese ich unter die gewünschte Alfa passen könnte.
Wiederverwenden von Daten: Ist das Problem behoben, wenn ich für jede von mir getestete Hypothese unterschiedliche Datensätze verwende? Die Chance, eine Entdeckung zu finden, erhöht sich immer noch, je mehr Hypothesen ich teste (selbst bei verschiedenen Datensätzen).
Unabhängige Forscher: Wiederverwendung des vorherigen Beispiels: Bezieht sich das MCP auf dasselbe Forschungsteam / dieselbe Forschungsarbeit? Oder gilt dies für mehrere unabhängige Forscher, die an demselben Problem arbeiten (oder sogar an denselben oder ähnlichen Daten)?
Unabhängige Hypothesen: Tritt das Problem im Zusammenhang mit der vorherigen Ausgabe auf (oder manifestiert es sich stärker), wenn die Hypothesen unabhängig sind? (weil ich mehr vom Suchraum abdecke) oder das Hauptproblem darin besteht, ähnliche Hypothesen mit kleinen Abweichungen auszuprobieren (z. B. Feinabstimmung eines Parameters)?

Ich könnte die obigen Punkte in meiner Interpretation wie folgt zusammenfassen: (1) und (2) sind Formen der Reduzierung des Suchraums (Ausleihe von Terminologie aus der Optimierungstheorie), wo ich es einfacher mache, eine Entdeckung zu finden; und (3) und (4) verwenden mehr orthogonale Suchmethoden, die jedes Mal, wenn sie angewendet werden (dh jedes Mal, wenn eine Hypothese getestet wird), mehr von diesem Suchraum abdecken. Aber dies sind nur einige mögliche Ursachen, die ich mir einfallen lassen könnte, um eine Antwort zu finden. Ich bin mir sicher, dass mir noch viel mehr fehlt.

Diese Frage ist eine Art Folgemaßnahme zu einer früheren Frage, in der gefragt wird, warum der Mehrfachvergleich ein Problem darstellt , und das ein Problem aufwirft , das der Unterscheidung zwischen FWER und FDR ähnelt (wenn ich die Frage richtig verstehe). In dieser Frage betrachte ich das nicht als Problem (obwohl ich eher dazu neige, FDR zu verwenden), beide Raten implizieren, dass es ein Problem gibt, wenn mehr als eine Hypothese analysiert wird (aber ich sehe keinen Unterschied zu dem Fall, wenn Ich analysiere verschiedene nicht verwandte Probleme und finde für jedes eine Entdeckung mit einer Signifikanz von 5%. Wenn ich also 100 Probleme "gelöst" habe, die Nullhypothesen ablehnen, wären 5 davon - erwarteter Wert - wahrscheinlich falsch. Die beste Antwort auf diese Frage implizierte, dass es keine eindeutige Antwort darauf gab, und vielleicht gibt es auch keine für diese Frage, aber es wäre (zumindest für mich) immer noch sehr hilfreich, so viel wie möglich zu klären, wo die Ursache des MCP-Fehlers liegt kommen von.

( Eine andere Antwort auf dieselbe Frage schlug ein Papier vor, in dem die Vorteile der Bayes'schen Mehrebenenmodellperspektive gegenüber der klassischen Perspektive erläutert werden. Dies ist ein weiterer interessanter Ansatz, der untersucht werden sollte, aber der Umfang dieser Frage ist der klassische Rahmen.)

Es gibt bereits mehrere Fragen zu diesem Problem, von denen viele lesenswert sind (z. B. 1 , 2 , 3 , 4 ), die sich (aus verschiedenen Perspektiven) mit den oben aufgeworfenen Fragen befassen, aber ich fühle immer noch eine einheitlichere Antwort (wenn dies überhaupt möglich ist). fehlt, daher diese Frage, von der ich hoffe, dass sie das (bereits problematische) SNR nicht verringert .

hypothesis-testing multiple-comparisons

— Paul Richards
quelle

"... je mehr Sie testen, desto mehr werden Sie wahrscheinlich finden" allein aufgrund des Zufalls . FTFY . :) Das heißt, "nur aufgrund des Zufalls" und nicht "aufgrund einer echten Assoziation".

— Alexis

Ich stimme zu, es gilt nicht nur für Sie, sondern auch für die anderen zusammen. Sie sollten sich jedoch nicht davon abhalten lassen, explorative Datenanalysen durchzuführen, die dann rigoros und individuell mit anderen unabhängig erhaltenen Daten verfolgt werden können.

— Robert Jones

Ein berühmtes, wichtiges und dramatisches Beispiel finden Sie unter ncbi.nlm.nih.gov/pmc/articles/PMC3659368 .

— whuber

Was ich bemerke, sind mehrere Beispiele des Wortes "Entdeckung" in der Frage. Wenn Sie die Frage erneut lesen und jede "Entdeckung" durch "falsche Entdeckung" ersetzen, kann dies Ihnen helfen, die Art des Problems klarer zu verstehen.

— Russ Lenth

Es scheint, dass bei einem gegebenen Datensatz je kleiner der Datensatz ist und je mehr Forscher daran arbeiten, desto wahrscheinlicher ist es, dass aufgrund des Zufalls eine falsche Korrelation im Datensatz gefunden wird. Es ähnelt einer großen Gruppe von Menschen, die versuchen, Lottoscheinnummern zu "finden". Eine in einem Datensatz gefundene Hypothese muss in einem anderen Datensatz unabhängig überprüft werden, um die Wahrscheinlichkeit zu verringern, dass die Entdeckung falsch war. Dies hängt jedoch von der Größe des Datensatzes ab, davon, wie viele Untersuchungen daran arbeiten und wie sehr Sie den Datenhygieneprozessen vertrauen können.

— Rinspy

Antworten:

Ihre Intuition ist ungefähr richtig, aber es kann hilfreich sein zu überlegen, wie ein mehrfacher Vergleich die Annahmen des Hypothesentests selbst untergräbt. Wenn Sie einen klassischen Hypothesentest durchführen, generieren Sie einen p-Wert, der ein Maß für die Evidenz gegen die Nullhypothese ist. Der p-Wert ist so konstruiert, dass niedrigere Werte einen größeren Beweis gegen die Null darstellen, und er ist unter der Nullhypothese gleichmäßig verteilt . Dies ermöglicht es Ihnen, die Nullhypothese für niedrige p-Werte (relativ zum Signifikanzniveau) als unplausibel anzusehen.

$N > 1$ $p_1, ..., p_N \sim \text{U}(0, 1)$ $0 < \alpha < 1$ $p_{(1)} < ... < p_{(k)} < \alpha < p_{(k+1)} ... < p_{(N)}$ $0 \leqslant k \leqslant N$ $k$

Was ist das Problem hier? Nun, das Problem ist, dass, obwohl die p-Werte jedes der Tests unter ihren jeweiligen Nullhypothesen einheitlich sind, die geordneten p-Werte nicht einheitlich sind. Indem Sie die niedrigsten p -Werte auswählen, die unter dem Signifikanzniveau liegen, betrachten Sie keine Zufallsvariablen mehr, die unter ihren jeweiligen Nullhypothesen einheitlich sind. Tatsächlich haben die niedrigsten p-Werte für großes wahrscheinlich eine Verteilung, die nahe Null stark konzentriert ist, und daher liegen diese höchstwahrscheinlich unter Ihrem Signifikanzniveau, obwohl (unter der Annahme) alle Nullhypothesen für Sie vorliegen Tests sind wahr. $k$ $N$

Dieses Phänomen tritt unabhängig davon auf, ob die p-Werte unabhängig sind oder nicht, und tritt daher unabhängig davon auf, ob Sie dieselben oder unterschiedliche Daten zum Testen dieser Hypothesen verwenden. Das Problem mehrerer Vergleiche besteht darin, dass die niedrigeren p-Werte der Tests marginale Nullverteilungen aufweisen, die nicht einheitlich sind . Anpassungen wie die Bonferroni-Korrektur versuchen, dies zu beheben, indem entweder die p-Werte oder die Signifikanzniveaus angepasst werden, um einen Vergleich zu erstellen, der dieses Phänomen berücksichtigt. $N$

— Ben - Monica wieder einsetzen
quelle

Nehmen wir also das im OP gegebene Beispiel eines Forschers, der mehrere Tests an einem Datensatz durchführt, gegenüber vielen einzelnen Forschern, die jeweils einen Test an demselben Datensatz durchführen, so dass der Satz von p-Werten für den ersteren der gleiche ist wie die Kombination von die einzelnen p-Werte für letztere, was dann? Der gleiche p-Wert für einen der Tests ist im letzteren Fall signifikant, aber nach der Anpassung für MCP im ersteren nicht signifikant? Wenn Sie also mehrere Tests durchführen, ist es besser, eine gemeinsame Arbeit zu schreiben, an der so viele Forscher beteiligt sind, wie geplante Tests vorliegen. :)

— Verwirrt

Unabhängig davon, ob Sie eine Arbeit über 10 Tests oder zehn Arbeiten über 1 Test schreiben, ist das Problem dasselbe - wenn Sie mehrere Vergleiche betrachten und die Tests mit niedrigen p-Werten auswählen, dann abhängig von dieser Auswahl die p- Werte sind nicht mehr einheitlich. Wenn zehn Forscher schreiben zehn einzelne Papiere einzelne Testergebnisse berichten, und Sie ziehen Sie die mit dem niedrigsten p-Wert (zB für eine Präsentation), weil es den niedrigste p-Wert hat , dann die Bedingung dieser Wahl des p-Wert ist nicht mehr einheitlich.

— Ben - Reinstate Monica

Entschuldigung, aber ich bin mir immer noch nicht sicher, ob ich dem Argument folge. Angenommen, derselbe Datensatz wird getestet, wenn er aus 10 verschiedenen Distributionen generiert wird. Und sagen wir, dass für 3 dieser Tests der p-Wert unter einem Alpha-Schwellenwert liegt. Wenn diese Tests von einzelnen Forschern separat durchgeführt werden, können diejenigen, die gegen diese 3 Verteilungen getestet haben, die Null von Daten ablehnen, die aus der bestimmten Verteilung stammen, die er / sie getestet hat. Wenn jedoch ein Forscher die Tests durchführt, kann er die 3 nicht ablehnen Nullhypothese?

— Verwirrt

Es kann durchaus sein, dass jeder einzelne Forscher (der die anderen Tests nicht kennt) einen Hypothesentest ohne Anpassung gegen ein Standard-Signifikanzniveau durchführt. Wenn jedoch eine Person vorbeikommt und all diese Papiere liest, muss sie die aggregierten Beweise von allen berücksichtigen. Das heißt, wenn sie das Papier mit dem niedrigsten p-Wert auswählen, sollten sie diesen p-Wert nicht isoliert von den anderen bewerten. Dies würde sie dazu veranlassen, eine falsche Alternativhypothese zu akzeptieren.

— Ben - Reinstate Monica

(Dies ist wirklich Teil eines umfassenderen statistischen Problems: Wenn das von Ihnen verwendete Inferenzobjekt von Ihren Daten beeinflusst wird, sollte die ordnungsgemäße Verwendung dieses Inferenzobjekts seine Abhängigkeit von den Daten berücksichtigen.)

— Ben - Reinstate Monica

Sie scheinen anzunehmen, dass ein Forscher erkennen kann, wann eine Entdeckung gemacht wird. Das ist nicht der Fall. Selbst wenn Sie "eine Entdeckung finden", können Sie nie sicher sein, dass Sie dies getan haben (es sei denn, Sie sind eine Art allwissendes Wesen), denn so beschämend es auch klingt, was normalerweise einen Fehlalarm von einer Entdeckung in der Wissenschaft unterscheidet ein gewisses Maß an menschlichem "Vertrauen" in die Analyse.

— Marsarius
quelle