Umfang der Mehrfachtestkorrektur

Eine etwas seltsame Frage. In meinem heutigen Biostatistikkurs im vierten Jahr diskutierten wir, wann und wann keine Mehrfachtestkorrektur angewendet werden sollte, und der Professor machte einen spontanen Kommentar. Er fragte, warum wir nicht jeden Test korrigieren, den wir jemals durchgeführt haben, seit wir angefangen haben, Statistiken zu erstellen, da sie alle (meistens) unabhängig sind und jedes Mal, wenn wir ein Ergebnis beobachten, erhöhen wir unsere Wahrscheinlichkeit, ein falsches Positiv zu ziehen. Er hat sich danach ausgelacht, aber warum machen wir das nicht? Ich sage nicht, dass wir das sollten, weil es natürlich lächerlich ist, aber wie weit ist es zu weit, wenn es darum geht, Tests zu korrigieren?

Der Einfachheit halber nehmen wir Alpha = 0,05 an und sagen, dass jeder Test A, B und C keiner Abhängigkeit unterliegt und somit unabhängig ist. Wenn ich mich hinsetze und A, B und C teste, seien es T-Tests oder was auch immer, muss ich mich natürlich auf Mehrfachkorrekturen einstellen, weil ich 0,95 hoch drei nehme und meine Chancen auf eine falsch positive Himmelsrakete. Wenn ich jedoch A, B und C an verschiedenen Tagen im Kontext verschiedener Verfahren mache und daraus unterschiedliche Ergebnisse ziehe, wie unterscheidet sich dies von der vorherigen Situation? Wir beobachten immer noch die drei Tests, sie sind immer noch unabhängig.

Was ich versuche zu erreichen, ist die logische Grenze, an der wir sagen, dass wir die Korrektur mehrerer Tests beenden sollen . Sollten wir es nur für eine Testfamilie tun, oder sollten wir es für ein ganzes Papier tun, oder sollten wir es für jeden einzelnen Test tun, den wir jemals durchgeführt haben? Ich verstehe, wie man mehrere Testkorrekturen verwendet und FDR / Bonferonni verwendet die ganze Zeit bei der Arbeit. Dieses Konzept hat meinen Kopf nur im Kreis gezogen.

Vielen Dank für Ihre Zeit.

Bearbeiten: In einer neueren Frage wird dieses Problem ausführlich diskutiert .

multiple-comparisons bonferroni false-discovery-rate

— Chris C.
quelle

Siehe meine Kommentare in einem anderen Beitrag stats.stackexchange.com/questions/117735/…

— Peter

@ Chris C; Ich denke, Ihre Frage bezieht sich auf stats.stackexchange.com/questions/164181/…

Verwandte (fast doppelte): stats.stackexchange.com/questions/206592 .

— Amöbe

@amoeba Ja, ich habe das gesehen und mich das Gleiche gefragt; Sie sind im Wesentlichen die gleiche Frage. Denken Sie, dass etwas dagegen unternommen werden sollte?

— Chris C

Ich denke, wenn jemand dafür gestimmt hat, dieses andere Q zu schließen, als es erschien, könnte es geschlossen worden sein, aber jetzt denke ich, dass die Antworten dort die Antworten hier übertreffen. Daher zögere ich, dafür zu stimmen, dass dieses als Duplikat geschlossen wird. Wir können Ihr Q jedoch als Duplikat dieses Qs schließen oder versuchen, Mods zu bitten, eines der Qs in ein anderes zusammenzuführen (dies bedeutet, dass die Antworten in den anderen Thread verschoben werden). Was denkst du selbst?

— Amöbe

Antworten:

Ich denke, die Antwort auf Ihre Frage lautet, dass die Mehrfachkorrektur vom Kontext des Problems abhängt, das Sie lösen. Wenn Sie zuerst A-priori- Tests und Post-hoc- Tests in Betracht ziehen , können Sie sehen, wo die Korrektur für mehrere Tests ins Spiel kommt.

Angenommen, Sie formulieren eine einzelne Hypothese, sammeln Daten und testen die Hypothese. In diesem Fall ist eine Korrektur offensichtlich nicht erforderlich. Wenn Sie sich a priori entscheiden , zwei oder mehr Tests für den Datensatz durchzuführen, können Sie mehrere Tests korrigieren oder nicht. Die Korrektur kann für jeden Test unterschiedlich sein und anhand Ihrer Domänenkenntnisse ausgewählt werden. Auf der anderen Seite können Sie einfach eine der üblichen Korrekturmethoden verwenden. A-priori- Tests sind in der Regel von geringer Anzahl. Wenn Sie eine große Anzahl von Hypothesen zu Tests hatten, können Sie sich für größere Stichproben, verschiedene Stichproben usw. entscheiden. Mit anderen Worten, Sie können Ihr Experiment so gestalten, dass Sie die bestmögliche Chance haben, aus Ihren Hypothesen korrekte Schlussfolgerungen zu ziehen.

Post-hoc- Tests werden dagegen an einem Datensatz durchgeführt, ohne dass eine bestimmte Hypothese berücksichtigt wird. Sie sind bis zu einem gewissen Grad Datenbagger und müssen sicherlich die Bonferroni- oder FDR-Korrektur (oder Ihre eigene Lieblingskorrektur) anwenden.

Da verschiedene Datensätze, die Sie im Laufe Ihres Lebens (oder für ein Papier) gesammelt haben, im Allgemeinen unabhängig sind und unterschiedliche Fragen stellen, sollten Sie sich nicht um die Korrektur jedes jemals durchgeführten Tests kümmern müssen. Denken Sie daran, dass mehrere Korrekturen eher vor familienbezogenen Fehlern (dh Schutz für eine Testfamilie ) als vor einzelnen Testfehlern schützen . Wenn Sie Ihre Tests logisch in Familien gruppieren können, werden Sie meiner Meinung nach geeignete Mehrfachvergleichsgrenzen für diese Familien finden.

— Martino
quelle

Vielleicht ist es interessant, einen Blick auf stats.stackexchange.com/questions/164181/…

Sie können sich die familienbezogene Fehlerrate vorstellen (FWER; weitere Informationen finden Sie in diesem Artikel ). Ich würde sagen, wenn Sie ein einzelnes Experiment durchführen, um A, B und C zu testen, sollten Sie eine Korrektur mit mehreren Tests anwenden. Wenn Sie für jedes A, B und C ein separates Experiment durchführen, ist keine Korrektur erforderlich.

Möglicherweise fragen Sie sich, warum wir die Fehlerrate pro Experiment steuern müssen. Hier ist meine Meinung. Stellen Sie sich vor, dass eine Institution vom Typ NIH oder FDA vorschreibt, dass Sie für jeden Test, den Sie jemals durchgeführt haben, korrigieren. Stellen Sie sich vor, Sie führen ein Experiment mit einem einzelnen Test durch, und dies ist Ihr erstes Experiment. Hier ist keine Anpassung erforderlich. Stellen Sie sich nun vor, Sie führen ein neues Experiment mit einem einzigen Test erneut durch, diesmal ist es jedoch Ihr -Experiment. Dann müssten Sie von 0,05 / 1.000 = 0,00005 verwenden! Wer würde Experimente mit einem so niedrigen ? Ich vermute also, dass Tukey, als er die experimentelle Fehlerrate vorschlug, möglicherweise fair zu jedem Experiment sein wollte, da jedes Experiment Geld, Zeit und Ressourcen kostet. $1,000^{th}$ $\alpha$ $\alpha$

— Masato Nakazawa
quelle

@ MasatoNakazwa: Vielleicht ist es interessant, einen Blick auf diese Antwort zu werfen stats.stackexchange.com/questions/164181/…