Benjamini & Hochberg definieren die Rate falscher Entdeckungen genauso wie ich, als den Bruchteil positiver Tests, die falsch positiv sind. Wenn Sie also deren Verfahren für mehrere Vergleiche verwenden, steuern Sie FDR ordnungsgemäß. Es ist jedoch erwähnenswert, dass es eine ganze Reihe von Varianten der BH-Methode gibt. Benjamins Seminare in Berkeley sind auf Youtube und sehenswert:
Ich bin nicht sicher, warum @amoeba sagt "Dies ist zu stark formuliert und kann tatsächlich irreführend sein". Es würde mich interessieren, warum er / sie das denkt. Das überzeugendste Argument stammt aus den simulierten t-Tests (Abschnitt 6). Das ahmt nach, was fast jeder in der Praxis tut, und es zeigt, dass Sie in mindestens 26% der Fälle falsch liegen, wenn Sie P nahe 0,047 beobachten und behaupten, eine Entdeckung gemacht zu haben. Was kann schon schief gehen?
Natürlich sollte ich das nicht als Minimum bezeichnen. Es ist das, was Sie erhalten, wenn Sie davon ausgehen, dass es eine 50% ige Chance gibt, dass es einen echten Effekt gibt. Wenn Sie davon ausgehen, dass die meisten Ihrer Hypothesen im Voraus richtig sind, können Sie einen niedrigeren FDR-Wert als 26% erreichen. Stellen Sie sich jedoch die Heiterkeit vor, mit der Sie die Behauptung aufstellen würden, Sie hätten aufgrund dieser Annahme eine Entdeckung gemacht Sie waren sich zu 90% sicher, dass Ihre Schlussfolgerung zutreffen würde. 26% ist der minimale FDR, da es keine vernünftige Grundlage für eine Schlussfolgerung ist, eine vorherige Wahrscheinlichkeit von mehr als 0,5 anzunehmen.
Angesichts der Tatsache, dass Ahnungen beim Testen häufig nicht aufstehen, kann es gut sein, dass die Wahrscheinlichkeit, dass eine bestimmte Hypothese zutrifft, nur bei 10% liegt. In diesem Fall wäre der FDR ein katastrophales Ergebnis von 76%.
Es ist wahr, dass all dies von der Nullhypothese abhängt, dass es eine Nulldifferenz gibt (der sogenannte Nullpunkt). Andere Auswahlmöglichkeiten können zu anderen Ergebnissen führen. Aber der Punkt null ist das, was fast jeder im wirklichen Leben benutzt (obwohl der es vielleicht nicht merkt). Außerdem scheint mir der Punkt null völlig angebracht zu sein. Manchmal wird beanstandet, dass wahre Unterschiede niemals genau null sind. Ich stimme dir nicht zu. Wir möchten feststellen, ob unsere Ergebnisse nicht von dem Fall unterscheidbar sind, in dem beide Gruppen identische Behandlungen erhalten, sodass der wahre Unterschied genau Null ist. Wenn wir feststellen, dass unsere Daten nicht mit dieser Ansicht kompatibel sind, schätzen wir die Effektgröße. und an diesem Punkt machen wir eine separate Beurteilung, ob der Effekt, obwohl er real ist, groß genug ist, um in der Praxis wichtig zu sein.Deborah Mayos Blog .
@amoeba Danke für deine Antwort.
Die Diskussion auf Mayos Blog zeigt hauptsächlich, dass Mayo mir nicht zustimmt, obwohl sie mir zumindest nicht klar gemacht hat, warum. Stephen Senn weist richtig darauf hin, dass Sie eine andere Antwort erhalten können, wenn Sie eine andere vorherige Verteilung postulieren. Das scheint mir nur für subjektive Bayesianer interessant zu sein.
Es ist sicherlich irrelevant für die tägliche Praxis, die immer einen Punkt null annimmt. Und wie ich bereits erklärte, scheint mir das eine absolut vernünftige Sache zu sein.
Viele professionelle Statistiker sind zu ähnlichen Ergebnissen gekommen wie ich. Versuchen Sie es mit Sellke & Berger und Valen Johnson. Es gibt nichts sehr umstrittenes (oder sehr originelles) an meinen Behauptungen.
Ihr anderer Punkt, nämlich die Annahme eines 0.5-Prior, scheint mir überhaupt keine Annahme zu sein. Wie ich oben erklärt habe, ist alles über 0,5 in der Praxis inakzeptabel. Und alles unter 0,5 erhöht die Rate falscher Entdeckungen noch mehr (z. B. 76%, wenn vor 0,1). Daher ist es durchaus sinnvoll zu sagen, dass 26% die minimale Rate für falsche Entdeckungen ist, die Sie erwarten können, wenn Sie in einem einzelnen Experiment P = 0,047 beobachten.
Ich habe mehr über diese Frage nachgedacht. Meine Definition von FDR ist die gleiche wie die von Benjamini - der Bruchteil der positiven Tests, die falsch sind. Aber es wird auf ein ganz anderes Problem angewendet, die Interpretation eines einzelnen Tests. Im Nachhinein wäre es vielleicht besser gewesen, wenn ich einen anderen Begriff gewählt hätte.
Bei einem einzelnen Test lässt B & H den P-Wert unverändert und sagt daher nichts über die Rate falscher Entdeckungen in dem Sinne aus, wie ich den Begriff verwende.
Sie haben natürlich recht. Benjamini & Hochberg und andere Personen, die an mehreren Vergleichen arbeiten, versuchen nur, die Fehlerrate des Typs 1 zu korrigieren. Sie erhalten also einen "richtigen" P-Wert. Es ist den gleichen Problemen unterworfen wie jeder andere P-Wert. In meinem neuesten Artikel habe ich den Namen von FDR in False Positive Risk (FPR) geändert, um dieses Missverständnis zu vermeiden.
Wir haben auch eine Web-App geschrieben, um einige der Berechnungen durchzuführen (nachdem wir festgestellt haben, dass nur wenige Leute die von uns bereitgestellten R-Skripte herunterladen). Es befindet sich unter https://davidcolquhoun.shinyapps.io/3-calcs-final/. Alle Meinungen zu itare sind willkommen (bitte lesen Sie zuerst die Registerkarte Notizen).
PS Der Web-Rechner hat jetzt eine neue (ich hoffe, permanente) unter http://fpr-calc.ucl.ac.uk/
Shiny.io ist einfach zu bedienen, aber sehr teuer, wenn jemand die App tatsächlich nutzt :-(
Ich bin zu dieser Diskussion zurückgekehrt, nachdem mein zweiter Artikel zu diesem Thema in der Royal Society Open Science erscheinen wird. Es befindet sich unter https://www.biorxiv.org/content/early/2017/08/07/144337
Mir ist klar, dass der größte Fehler, den ich im ersten Artikel gemacht habe, darin bestand, den Begriff "False Discovery Rate (FDR)" zu verwenden. In der neuen Veröffentlichung mache ich deutlicher, dass ich nichts über das Problem der Mehrfachvergleiche sage. Ich beschäftige mich nur mit der Frage, wie der P-Wert zu interpretieren ist, der in einem einzigen neutralen Test beobachtet wird.
In der neuesten Version beziehe ich mich auf die Wahrscheinlichkeit, dass das Ergebnis als falsch positives Risiko (FPR) und nicht als FDR bezeichnet wird, in der Hoffnung, Verwirrung zu lindern. Ich befürworte auch den umgekehrten Bayes'schen Ansatz - geben Sie die vorherige Wahrscheinlichkeit an, die erforderlich wäre, um eine FPR von beispielsweise 5% sicherzustellen. Wenn Sie P = 0,05 beobachten, ergibt sich ein Wert von 0,87. Mit anderen Worten, Sie müssten fast (87%) sicher sein, dass es einen echten Effekt gab, bevor Sie das Experiment durchführen, um eine FPR von 5% zu erreichen (was die meisten Leute fälschlicherweise immer noch glauben, dass p = 0,05 bedeutet).