Wann müssen p-Werte in mehreren Vergleichen korrigiert werden?

Ich befürchte, dass verwandte Fragen meine nicht beantwortet haben. Wir bewerten die Leistungen von> 2 Klassifikatoren (maschinelles Lernen). Unsere Nullhypothese lautet, dass sich die Leistungen nicht unterscheiden. Wir führen parametrische (ANOVA) und nicht parametrische (Friedman) Tests durch, um diese Hypothese zu bewerten. Wenn sie signifikant sind, möchten wir herausfinden, welche Klassifikatoren sich in einer Post-hoc-Quest unterscheiden.

Meine Frage ist zweifach:

1) Ist eine Korrektur der p-Werte nach mehreren Vergleichstests überhaupt notwendig? Die deutsche Wikipedia-Seite "Alphafehler Kumwürd" sagt, dass das Problem nur auftritt, wenn mehrere Hypothesen mit denselben Daten getestet werden. Beim Vergleich der Klassifikatoren (1,2), (1,3), (2,3) überlappen sich die Daten nur teilweise. Müssen die p-Werte noch korrigiert werden?

2) Die P-Wert-Korrektur wird häufig nach paarweisen Tests mit einem t-Test verwendet. Ist dies auch erforderlich, wenn spezielle Post-hoc-Tests wie der Nemenyi-Test (nicht parametrisch) oder der Tukey-HSD-Test durchgeführt werden? Diese Antwort sagt "Nein" für Tukeys HSD: Korrigiert der Tukey-HSD-Test mehrere Vergleiche? . Gibt es eine Regel oder muss ich diese für jeden möglichen Post-Hoc-Test nachschlagen?

Vielen Dank!

multiple-comparisons bonferroni tukey-hsd

— Chris
quelle

Warum führen Sie sowohl ANOVA- als auch Friedman-Tests durch?

— Alexis

Es geht um ein automatisiertes Testframework, das dem Prüfer sowohl eine parametrische als auch eine nicht parametrische Alternative bieten sollte, wenn die parametrischen Annahmen nicht erfüllt sind.

— Chris

Zu den von Ihnen erwähnten Omnibus-Tests: (A) Wenn Ihre Datengruppen unabhängig sind, sollten Sie entweder den ANOVA-Test (parametrisch) oder den Kruskal-Wallis-Test (nicht parametrisch) verwenden. (B) Wenn Ihre Gruppen abhängig sind (z. B. wiederholte Messungen), sollten Sie entweder den ANOVA-Test (parametrisch) oder den Friedman-Test (nicht parametrisch) verwenden. (Klassischer) ANOVA- und Friedman-Test als Alternative klingt nicht richtig.

— GegznaV

Antwort auf Frage 1
Sie müssen sich auf mehrere Vergleiche einstellen, wenn Sie sich für die Wahrscheinlichkeit interessieren, mit der Sie einen Fehler vom Typ I machen. Eine einfache Kombination aus Metapher / Gedankenexperiment kann helfen:

Stellen Sie sich vor, Sie möchten im Lotto gewinnen. Seltsamerweise gibt Ihnen diese Lotterie eine Gewinnchance von 0,05 (dh 1 zu 20). M sind die Kosten für das Ticket in dieser Lotterie, was bedeutet, dass Ihre erwartete Rendite für einen einzelnen Lotterieanruf M / 20 beträgt . Jetzt noch seltsamer, stellen Sie sich vor, dass Sie mit diesen Kosten, M , aus unbekannten Gründen so viele Lottoscheine haben können, wie Sie möchten (oder mindestens mehr als zwei). Wenn Sie sich denken: "Je mehr Sie spielen, desto mehr gewinnen Sie", schnappen Sie sich eine Reihe von Tickets. Ihre erwartete Rendite bei einem Lotterieanruf ist nicht mehr M / 20, sondern etwas größer. Ersetzen Sie nun "Lottogewinn" durch "Fehler vom Typ I machen".

Wenn Sie sich nicht um Fehler kümmern und sich nicht um Menschen kümmern, die wiederholt und spöttisch Ihre Aufmerksamkeit auf einen bestimmten Cartoon über Jellybeans lenken sich nicht auf mehrere Vergleiche einstellen.

Das Problem der "gleichen Daten" tritt bei familienbezogenen Fehlerkorrekturmethoden (z. B. Bonferroni, Holm-Sidák usw.) auf, da das Konzept der "Familie" etwas vage ist. Die Methoden der Rate falscher Entdeckungen (z. B. Benjamini und Hochberg, Benjamini und Yeuketeli usw.) haben jedoch die Eigenschaft, dass ihre Ergebnisse über verschiedene Gruppen von Schlussfolgerungen hinweg robust sind.

$\alpha$

— Alexis
quelle

+1 für eine umfassende und humorvolle Antwort (und für die Bezugnahme auf xkcd). Insbesondere haben Sie sich auch mit meiner noch nicht ausgeglichenen Frage befasst, ob es einen Unterschied zwischen "Bonferroni-Test" und "Bonferroni-Korrektur" gibt. Würde es Ihnen dennoch etwas ausmachen, das Problem der Mehrfachvergleiche anhand meiner Problembeschreibung zu erklären? Ich verstehe, dass ein Klassifikator wie eine Behandlungsgruppe ohne / blau / grün / ... Gummibärchen im Comic ist.

— Chris

p

$p$

p

$p$

Ich denke das ist in Ordnung, vielen Dank! Es könnte etwas länger dauern, bis ich das Lotteriebeispiel auf meinen Anwendungsfall angewendet habe, aber ich hatte die Idee.

— Chris

@ Chris verstehen, dass die Lotterie nur eine Metapher war. Wenn Sie Hilfe bei der Anwendung von FWER- oder FDR-Methoden benötigen, lesen Sie die Wikipedia-Einträge, suchen Sie hier nach verwandten Fragen oder stellen Sie möglicherweise eine neue Frage dazu. :)

— Alexis