Was ist falsch an der Korrektur mehrerer Tests im Vergleich zu gemeinsamen Tests?

Ich frage mich, warum gesagt wird, dass mehrere Testkorrekturen "willkürlich" sind und dass sie auf einer inkohärenten Philosophie beruhen, die

Die Richtigkeit einer Aussage hängt davon ab, welche anderen Hypothesen unterhalten werden

siehe zB Antworten und Kommentare zu Was stimmt nicht mit Bonferroni-Anpassungen? und insbesondere die Diskussion zwischen @FrankHarrell und @Bonferroni.

Nehmen wir (zur Vereinfachung und zur Vereinfachung der Darstellung) an, dass wir zwei (unabhängige) normale Populationen haben, unabhängig und mit bekannten Standardabweichungen, aber unbekannten Mitteln. Nehmen wir (nur als Beispiel) an, dass diese Standardabweichungen resp. $\sigma_1=2, \sigma_2=3$ .

Gemeinsamer Test

Angenommen, wir möchten die Hypothese testen $H_0: \mu_1 = 2 \& \mu_2=2$ gegen mit einem Signifikanzniveau von (das Symbol bedeutet 'und' während $H_1: \mu_1 \ne 2 | \mu_2 \ne 2$ $\alpha=0.05$ $\&$ $|$ bedeutet 'oder').

Wir haben auch ein zufälliges Ergebnis aus der ersten Population und $x_1$ $x_2$ aus der zweiten Population.

wenn $H_0$ wahr ist, dann ist die erste Zufallsvariable $X_1 \sim N(\mu_1=2,\sigma_1=2)$ und die zweite $X_2 \sim N(\mu_2=2,\sigma_2=3)$ Da wir von Unabhängigkeit ausgegangen sind, gilt die Zufallsvariable $X^2 = \frac{(X_1-\mu_1)^2}{\sigma_1^2} + \frac{(X_2-\mu_2)^2}{\sigma_2^2}$ ist $\chi^2$ mit $df=2$ . Wir können das nutzen $X^2$ als Teststatistik und wir werden akzeptieren $H_0$ wenn für die beobachteten Ergebnisse $x_1$ und $x_2$ es hält das $\frac{(x_1-\mu_1)^2}{\sigma_1^2} + \frac{(x_2-\mu_2)^2}{\sigma_2^2} \le \chi^2_\alpha$ . Mit anderen Worten ist der Akzeptanzbereich für diesen Test eine Ellipse, die auf zentriert ist $(\mu_1, \mu_2)$ und wir haben eine Dichtemasse von $1-\alpha$ Oben auf dieser Ellipse.

Mehrere Tests

Bei mehreren Tests führen wir zwei unabhängige Tests durch und passen das Signifikanzniveau an. Wir werden also zwei unabhängige Tests durchführen $H_0^{(1)}: \mu_1 = 2$ gegen $H_1^{(1)}: \mu_1 \ne 2$ und ein zweiter Test $H_0^{(2)}: \mu_2 = 2$ gegen $H_1^{(2)}: \mu_2 \ne 2$ aber mit einem angepassten Signifikanzniveau $\alpha^{adj.}$ das ist so, dass $1-(1-\alpha^{adj.})^2=0.05$ oder $(1-\alpha^{adj.})^2=0.95$ oder $1-\alpha^{adj.}=\sqrt{0.95}$ oder $\alpha^{adj.}=1-\sqrt{0.95}$ was ergibt $\alpha^{adj.}=0.02532057$ .

In diesem Fall akzeptieren wir $H_0^{(1)}$ und $H_0^{(1)}$ (und beide zusammen entsprechen unserem '' Original '' $H_0: \mu_1 = 2 \& \mu_2=2$ ) wann immer $\frac{x_1 - \mu_1}{\sigma_1} \le z_{\alpha^{adj.}}$ und $\frac{x_2 - \mu_2}{\sigma_2} \le z_{\alpha^{adj.}}$

Wir schließen daraus, dass bei mehreren Tests der Akzeptanzbereich für $x_1,x_2$ ist ein Rechteck mit Zentrum geworden $(\mu_1,\mu_2)$ und mit einer Wahrscheinlichkeitsmasse von $1-\alpha$ oben drauf.

Fazit

Also finden wir das für einen Joint ( $\chi^2$ ) Testen Sie die geometrische Form des Akzeptanzbereichs ist eine Ellipse, während es sich bei mehreren Tests um ein Rechteck handelt. Die Dichtemasse oben auf dem Akzeptanzbereich beträgt in beiden Fällen 0,95.

Fragen

Was ist dann das Problem bei mehreren Tests? Wenn es ein solches Problem gibt, sollte (siehe oben) das gleiche Problem für gemeinsame Tests bestehen oder nicht? Der Grund kann nicht sein, dass wir Ellipsen gegenüber Rechtecken bevorzugen, oder?

hypothesis-testing multiple-comparisons bonferroni

— Gemeinschaft
quelle

Antworten:

Ich denke, Sie vermissen @ FrankHarrells Punkt hier (ich habe derzeit keinen Zugriff auf das Perneger-Papier, das im verlinkten Thread besprochen wurde, kann es also nicht kommentieren).

In der Debatte geht es nicht um Mathematik, sondern um Philosophie. Alles, was Sie hier geschrieben haben, ist mathematisch korrekt, und die Bonferroni-Korrektur ermöglicht eindeutig die Kontrolle der familienweisen Fehlerrate vom Typ I, wie dies auch bei Ihrem "gemeinsamen Test" der Fall ist. In der Debatte geht es überhaupt nicht um die Besonderheiten von Bonferroni selbst, sondern um mehrere Testanpassungen im Allgemeinen.

Jeder kennt ein Argument für mehrere Testkorrekturen, wie der berühmte XKCD- Jelly-Beans-Comic zeigt :

Hier ist ein Gegenargument: Wenn ich eine wirklich überzeugende Theorie entwickeln würde, die vorhersagt, dass speziell grüne Gummibärchen Akne verursachen sollten; und wenn ich experimentierte, um es zu testen und nett und klar wurde $p=0.003$ ;; und wenn es so kam, dass ein anderer Doktorand im selben Labor aus irgendeinem Grund neunzehn Tests für alle anderen Gummibärchenfarben durchführte $p>05$ jedes Mal; und wenn jetzt unser Berater all das in einem einzigen Papier zusammenfassen möchte; - dann wäre ich total dagegen, meinen p-Wert von "anzupassen" $p=0.003$ zu $p=0.003\cdot 20 = 0.06$ .

Beachten Sie, dass die experimentellen Daten im Argument und im Gegenargument möglicherweise genau gleich sind. Die Interpretation ist jedoch unterschiedlich. Dies ist in Ordnung, zeigt jedoch, dass man nicht verpflichtet sein sollte, in allen Situationen mehrere Testkorrekturen vorzunehmen . Es ist letztendlich eine Frage des Urteils. Entscheidend ist, dass reale Szenarien normalerweise nicht so eindeutig sind wie hier und zwischen # 1 und # 2 liegen. Siehe auch Franks Beispiel in seiner Antwort .

— Amöbe
quelle

Ich muss sagen, dass ich den Punkt hier nicht vollständig verstehe und ich würde es wirklich gerne verstehen, also versuche ich, meinen Standpunkt darzulegen; Ich denke, dass alles von Ihrer Hypothese abhängt, die Sie testen. Ich sehe in Ihrem Beispiel nicht die genaue Hypothese, die für den „anderen Doktoranden“ getestet wird, und meiner Meinung nach hängt alles davon ab. Ich habe versucht, meinen Punkt im Abschnitt 'Bearbeiten' am Ende dieser Antwort zu erläutern. Ich nehme das Beispiel von Herrn Harrell und versuche, meinen Standpunkt zu verdeutlichen: stats.stackexchange.com/questions/120362/…

Sicher hängt es von der Hypothese ab, @fcop. Das Problem ist, dass die Hypothesen im wirklichen Leben nicht immer so klar sind wie in der Mathematik. Jemand kann eine "Hypothese" haben, dass Behandlung A die Behandlung B übertrifft. Dann werden verschiedene Leistungsmaßstäbe gesammelt und der übliche Garten der Gabelpfade beginnt. Wenn ich dumm 10 Takte aufgezeichnet habe und alle versuche, dann ist es eindeutig Szenario Nr. 1 in meiner Antwort. Wenn ich eine klare a priori Wahl habe, dann ist es # 2. Aber normalerweise habe ich einige Vermutungen, bin mir aber nicht sicher, und dann schlägt mein Berater vor, diese andere Maßnahme auch usw. usw. zu versuchen ...

— Amöbe

Ja, aber ich denke, dass es im wirklichen Leben eine vollkommen fundierte Erklärung für das Beispiel mit den gelben Bohnen gibt. Nur ist es zu lang, einen Kommentar abzugeben. Darf ich ihn in eine Antwort einfügen?

Ich habe eine Antwort gepostet, um meinen Standpunkt zu verdeutlichen. Bitte zögern Sie nicht, kritisch zu reagieren, da ich wirklich verstehen möchte.

@fcop Ich stimme Amöbe hier zu. Für mich ist die Sache mit Ihrer Frage, dass sie ausschließlich abstrakt formuliert ist. Wenn auf der "Ist Statistik Teil der Mathematik oder Teil der Wissenschaft?" Kontinuum Sie kommen vom = wissenschaftlichen Ende wie ich, dann lässt Ihre Frage alles aus, was wichtig ist.

— Mdewey

@amoeba: Am Beispiel mit den Gummibärchen möchte ich wie folgt argumentieren (Anmerkung, ich möchte nur verstehen):

Nehmen wir an, es gibt 20 verschiedene Farben von Gummibärchen, nennen wir diese $c_1, c_2, \dots , c_{20}$ , und lass $c_{10}$ sei die Farbe 'grün'.

Also, mit Ihrem Beispiel die p-Werte für Farbe $i$ (Wir notieren dies als $p^{(i)}$ ) wird sein $p^{(i)} > 0.05$ wann $i \ne 10$ und $p^{(10)}=0.003$ .

Theorie 1: Grüne Gummibärchen verursachen Akne

Wenn Sie eine Theorie entwickelt haben, dass grüne Gummibärchen Akne verursachen, sollten Sie die Hypothese testen

$H_0$ : '' Gummibärchen der Farbe $c_{10}$ haben keine Wirkung auf Akne '' versus $H_1$ : '' Gummibärchen der Farbe $c_{10}$ Akne verursachen ''. Dies ist offensichtlich kein Problem mit mehreren Tests, sodass Sie die p-Werte nicht anpassen müssen.
Theorie 2: Nur grüne Gummibärchen verursachen Akne

In diesem Fall sollten Sie '' haben $H_1$ : Grüne Gummibärchen verursachen Akne UND Gummibärchen von Farbe $c_i, i\ne 10$ verursachen keine Akne '' und $H_0$ ist dann '' grüne Gummibärchen verursachen keine Akne ODER $\exists i|i \ne 10$ so dass Bohnen der Farbe $c_i$ Akne verursachen ''.

Dies ist ein Problem mit mehreren Tests und erfordert angepasste p-Werte.
Theorie 3: Gummibärchen (welcher Farbe auch immer) verursachen Akne

In diesem Fall $H_1$ : '' Gummibärchen der Farbe $c_1$ verursachen Akne und Gummibärchen Farbe $c_2$ verursachen Akne UND ... UND '' Gummibärchen der Farbe $c_{20}$ verursachen Akne '' und $H_0$ ist das Gegenteil.

Dies ist wieder ein Problem mit mehreren Tests.
Theorie ...

Fazit

Wie auch immer, es ist ersichtlich, dass diese Theorien grundlegend unterschiedlich sind und ob eine Anpassung des p-Werts erforderlich ist oder nicht, hängt davon ab , nicht von der Philosophie , zumindest ist dies mein Verständnis.

PS für die Reaktion auf das Beispiel von @FrankHarrell siehe '' BEARBEITEN '' am Ende meiner Antwort auf Was ist los mit Bonferroni-Anpassungen?

— Gemeinschaft
quelle

Alles, was Sie schreiben, ist korrekt, aber nur in der idealen Lehrbuchsituation anwendbar, wenn

H_{0}

$H_0$ ist im Voraus genau formuliert. In der Praxis ist dies meistens einfach nicht der Fall. Das Beispiel mit Gummibärchen ist ein bisschen albern, aber hier ist es: Die Theorie ist, dass grünliche Bohnen Akne verursachen. Beachten Sie, dass es vage ist. Sie versuchen grüne Gummibärchen. Ihr Chef sagt Ihnen, Sie sollen auch olivgrüne und smaragdgrüne probieren. Sie halten sich daran. Nun finden Sie p = 0,02, p = 0,3 und p = 0,3. Wie geht's? Richtig für drei Tests? Oder nicht? Was hätten Sie getan, wenn es stattdessen 0,3, 0,02 und 0,3 gewesen wäre?

— Amöbe

Ihr Chef sagt: Wir haben drei Experimente durchgeführt, wir müssen Bonferroni verwenden, nichts ist von Bedeutung. Sie sagen: Aber ich wollte nicht einmal Oliven und Smaragd testen, daher sind keine Korrekturen erforderlich. Ich habe ein signifikantes Ergebnis. Beachten Sie, dass die Forschungshypothese nicht präzise genug war ("grünlich"), um uns zu sagen, ob es sich um "grün" oder "grün + oliv + smaragd" handelte. Alles hängt davon ab, was Sie getan hätten, wenn nur Smaragd von Bedeutung gewesen wäre. Würden Sie es einfach ignorieren (nicht Teil Ihrer Hypothese) oder Bonferroni verwenden (um zu versuchen, es zu retten)? Schwer im Voraus zu sagen!

— Amöbe

Auch dieses Beispiel für Gummibärchen wird inzwischen etwas albern ( dieses Beispiel ist wahrscheinlich sinnvoller; ich könnte meine Antwort bearbeiten, um es näher zu erläutern), aber so wird der größte Teil der Forschung durchgeführt . Das meiste davon ist irgendwie zwischen bestätigend und explorativ.

— Amöbe

@amoeba: aber wir scheinen uns einig zu sein, dass es nicht mehr um Philiosophie geht? Wenn mein Chef sagte, ich sollte grüne Oliven und Emarald probieren, dann sollte ich als Statistiker meinen Chef fragen: Aber was möchten Sie zeigen, dass grüne, olivgrüne und smaragdgrüne Bienen Akne verursachen oder dass einer von ihnen Ursachen hat? Akne? PS Der Link 'dieses Beispiel' scheint nicht zu funktionieren? Für explorative Forschung sollten Sie FDR anstelle von Hypothesentests verwenden?

@amoeba: Ich denke, Sie können Data Mining bei Ihrer Suche nach "neuen Theorien" durchführen, aber sobald Sie eine neue Theorie entdeckt haben, sollten Sie eine Bestätigung dafür finden, indem Sie ein anderes Beispiel verwenden als das Beispiel, das Sie für das Data Mining verwendet haben. Was denken Sie?

Ich werde meine alte Antwort am Ende hinterlassen, um den Kontext für Ihren Kommentar bereitzustellen.

Es scheint mir, dass Ihr Gedankenexperiment zwischen Rechteck und Ellipsoid einen interessanten Hinweis auf ein Problem mit mehreren Vergleichen gibt: Ihr Beispiel mit mehreren Tests projiziert in gewissem Sinne Informationen in der Dimensionalität, sichert sie dann und verliert dabei Informationen.

Das heißt, die Gelenkwahrscheinlichkeit ist ellipsoid, gerade weil Sie zwei Gaußsche Verteilungen haben, die gemeinsam ein Ellipsoid ergeben, dessen Zirkularität durch die relative Varianz der beiden Verteilungen bestimmt wird und dessen Steigung der Hauptachse durch die Korrelation der beiden bestimmt wird Datensätze. Da Sie angeben, dass die beiden Datensätze unabhängig sind, verläuft die Hauptachse parallel zur x- oder y-Achse.

Auf der anderen Seite projiziert Ihr Beispiel mit zwei Tests Gaußsche Verteilungen bis zu einem 1-D-Bereich. Wenn Sie dann die beiden Tests zu einem einzigen 2-D-Diagramm kombinieren (Sicherung projizieren), haben Sie Informationen und die daraus resultierenden 95 verloren % Fläche ist eher ein Rechteck als das entsprechende Ellipsoid. Und es wird schlimmer, wenn die beiden Datensätze korreliert sind.

Es scheint mir also, dass dies ein Hinweis darauf sein könnte, dass bei mehreren Tests Informationen verloren gehen, weil wir Informationen als nach unten projizieren - Informationen im Prozess verlieren - und dann sichern. Die Form der resultierenden Pseudo-Gelenkdichte ist also falsch und der Versuch, ihre Achsen über so etwas wie einen Boneferroni zu skalieren, kann das nicht beheben.

Als Antwort auf Ihre Frage würde ich ja sagen, wir bevorzugen eine Ellipse in unserer gemeinsamen Verteilung anstelle des falschen (aufgrund von Informationsverlust) Rechtecks unserer Pseudo-gemeinsamen Verteilung. Oder vielleicht liegt das Problem darin, dass Sie überhaupt eine Pseudo-Gelenkdichte erstellt haben.

ABER Ihre Frage ist philosophischer als das, und ich muss Amöbens Antwort unterstützen, dass es nicht nur eine Frage der Mathematik ist. Was ist zum Beispiel, wenn Sie Ihr Jellybean-Experiment mit einer präzisen "grünen Jelly Beans" als Teil Ihrer Hypothese vorregistriert haben und nicht mit einer ungenauen "grünlichen". Sie führen das Experiment durch und stellen keinen statistisch signifikanten Effekt fest. Dann zeigt Ihnen Ihr Laborassistent ein Foto, das sie vor all den Jellybean-Dosen von sich selbst gemacht haben - was für eine Herkulesaufgabe, die sie ausgeführt haben! Und etwas, das Sie sagen, lässt den Assistenten erkennen, dass Sie teilweise farbenblind sind.

Es stellt sich heraus, dass das, was Sie "grün" nannten, tatsächlich grüne und Aqua-Geleebonbons sind! Mit Hilfe des Fotos codiert der Assistent die Ergebnisse richtig und es stellt sich heraus, dass grüne Geleebonbons von Bedeutung sind! Ihre Karriere ist gerettet! Es sei denn, Sie haben gerade einen Mehrfachvergleich durchgeführt: Sie haben zwei Mal an den Daten gewischt, und wenn Sie überhaupt eine Bedeutung gefunden hätten, hätte niemand etwas anderes gewusst.

Hier geht es nicht um P-Value-Hacking. Es war eine ehrliche Korrektur, aber Ihre Motivation spielt hier keine Rolle.

Und wenn wir ganz ehrlich sind, ist "grün" nicht spezifischer als "grünlich". Zuerst in Bezug auf die tatsächliche Farbe und dann in Bezug auf die Tatsache, dass Grün höchstwahrscheinlich ein Ersatz für andere Inhaltsstoffe ist.

Und was wäre, wenn Sie Ihren Fehler nie entdeckt hätten, Ihr Assistent jedoch aus irgendeinem Grund das Experiment wiederholt und die zweiten Ergebnisse signifikant waren? Grundsätzlich der gleiche Fall, obwohl Sie zwei Datensätze gesammelt haben. An diesem Punkt fange ich an zu wandern, also lassen Sie mich noch einmal zusammenfassen und sagen, ich glaube, Amoeba hat es richtig und Ihre Idee "es ist oder ist nicht wegen der Mathematik" ist technisch korrekt, aber in der realen Welt nicht nachvollziehbar.

ALTE Antwort: Geht es bei dieser Frage tatsächlich um Korrelation? Ich denke eher an ein Mahalanobis-Distanz-Problem, bei dem ein unabhängiger Blick auf 95% x1 und 95% x2 ein Rechteck ergibt, aber dies setzt voraus, dass x1 und x2 nicht korreliert sind. Bei Verwendung des Mahalanobis-Abstandes (eine Ellipse, die basierend auf der Korrelation zwischen x1 und x2 geformt wird) ist überlegen. Die Ellipse erstreckt sich außerhalb des Rechtecks, akzeptiert also einige Punkte außerhalb des Rechtecks, lehnt jedoch auch Punkte innerhalb des Rechtecks ab. Angenommen, x1 und x2 sind bis zu einem gewissen Grad korreliert.

Wenn Sie ansonsten annehmen, dass x1 und x2 eine Korrelation von 0 haben, welche Verteilung nehmen Sie für jede an? Wenn Sie einheitlich sind, erhalten Sie einen rechteckigen Bereich, wenn normal, erhalten Sie einen elliptischen Bereich. Dies wäre wiederum unabhängig von mehreren Testkorrekturen oder nicht.

— Wayne
quelle

Vielen Dank für Ihren Versuch, aber hier geht es um mehrere Tests (wie z. B. Bonferroni und andere). Wie ich in der Antwort festgestellt habe, gehen wir von Unabhängigkeit aus, sodass es in dieser Frage nicht um Korrelation geht. Abhängigkeit wäre eine interessante Erweiterung des Problems, aber ich werde zunächst versuchen, einige Antworten unter der Annahme der Unabhängigkeit zu erhalten.

Ich verstehe den Punkt nicht, ich habe nie etwas über grünlich gesagt? Und ich stimme zu, wenn wir mit "Was ist, wenn Sie farbenblind sind" beginnen, dann stimme ich zu, dass es übrigens philosofisch wird, wenn der Assistent auf irgendeine Weise feststellt, dass ich farbenblind bin, könnte es nicht sein, dass die Farbenblindheit ist beim Assistenten und nicht bei mir?

@fcop: Re: "grünlich", du darfst es nicht erwähnen, aber Amoeba tut es in seinen Interaktionen mit dir in seinen Kommentaren. Ich stimme ihm zu und sage, es ist noch schlimmer als der Fall, den er macht. Wer farbenblind ist, spielt keine Rolle. Ich habe lediglich versucht, ein realistischeres Szenario zu erstellen, in dem sich ein mehrfacher Vergleich als etwas anderes tarnt.

— Wayne

Ein Assistent, der nach einem Hypothesentest feststellt, dass der Forscher farbenblind ist, ist ein realistischeres Szenario?