Ist die Benjamini-Hochberg-Korrektur konservativer, wenn die Anzahl der Vergleiche zunimmt?


19

Wie konservativ ist die Mehrfachkorrektur nach Benjamini-Hochberg im Verhältnis zur Gesamtzahl der Vergleiche? Zum Beispiel, wenn ich eine Liste mit 18.000 Funktionen für zwei Gruppen habe und einen Wilcoxon-Test durchführe, um einen p-Wert zu erhalten. Ich stelle diesen p-Wert mit Benjamini-Hochberg ein und so gut wie nichts kommt als signifikant heraus.

Ich weiß, dass die Bonferroni-Korrektur bei zunehmender Anzahl von Vergleichen durchaus konservativ sein kann. Hat Benjamini-Hochberg die gleiche Eigenschaft?


1
Meinen Sie wirklich konservativ in dem Sinne, dass die tatsächliche Rate von Typ I viel geringer ist als die nominelle? Oder meinst du "Low Power"?
Shabbychef

Er sagte "konservativ", nicht "zu konservativ". Wenn eine Methode konservativ ist, hat sie eine geringe Leistung ...
Elvis

Antworten:


31

Zunächst müssen Sie verstehen, dass diese beiden Mehrfachtestverfahren nicht dasselbe steuern. Anhand Ihres Beispiels haben wir zwei Gruppen mit 18.000 beobachteten Variablen, und Sie führen 18.000 Tests durch, um einige Variablen zu identifizieren, die sich von einer Gruppe zur anderen unterscheiden.

  • Die Bonferroni-Korrektur steuert die familienbezogene Fehlerrate , dh die Wahrscheinlichkeit, dass Sie fälschlicherweise behaupten, dass alle 18.000 Variablen in den beiden Gruppen die gleiche Verteilung haben, "hier habe ich einige signifikante Unterschiede". In der Regel entscheiden Sie, dass Ihre Behauptung glaubwürdig ist, wenn diese Wahrscheinlichkeit <5% ist.

  • Die Benjamini-Hochberg-Korrektur steuert die Rate falscher Entdeckungen , d. H. Den erwarteten Anteil falsch positiver Ergebnisse an den Variablen, für die Sie die Existenz einer Differenz behaupten. Wenn zum Beispiel bei einem auf 5% kontrollierten FDR 20 Tests positiv sind, ist "im Durchschnitt" nur 1 dieser Tests falsch positiv.

Wenn nun die Anzahl der Vergleiche zunimmt, hängt dies von der Anzahl der zutreffenden marginalen Nullhypothesen ab. Aber im Grunde haben Sie mit beiden Verfahren, wenn Sie ein paar, sagen wir 5 oder 10, wirklich zugeordnete Variablen haben, mehr Chancen, sie unter 100 Variablen als unter 1.000.000 Variablen zu erkennen. Das sollte intuitiv genug sein. Es gibt keine Möglichkeit, dies zu vermeiden.


2
Das war eine schöne Erklärung. Danke für die nachdenkliche Antwort.
user4673

2
Nette Antwort (+1), das könnte dich interessieren stats.stackexchange.com/questions/166323/…
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.