Ist die Bonferroni-Korrektur für einige abhängige Hypothesen zu antikonservativ / liberal?

Ich habe häufig gelesen, dass die Bonferroni-Korrektur auch für abhängige Hypothesen funktioniert. Ich glaube jedoch nicht, dass dies wahr ist, und ich habe ein Gegenbeispiel. Kann mir bitte jemand sagen (a) wo mein Fehler ist oder (b) ob ich diesbezüglich richtig bin.

Einrichten des Zählerbeispiels

Angenommen, wir testen zwei Hypothesen. Sei die erste Hypothese ist falsch und sonst. Definieren Sie ähnlich. Sei die p-Werte, die den beiden Hypothesen zugeordnet sind, und sei Die Indikatorfunktion für die in den Klammern angegebene Menge. $H_{1}=0$ $H_{1}=1$ $H_{2}$ $p_{1},p_{2}$ $[\![\cdot]\!]$

Für festes definieren Sie die offensichtlich Wahrscheinlichkeitsdichten sind über . Hier ist eine grafische Darstellung der beiden Dichten $\theta\in [0,1]$

\begin{array}{rcl} P (p_{1}, p_{2} | H_{1} = 0, H_{2} = 0) & = & \frac{1}{2 θ} [[0 \leq p_{1} \leq θ]] + \frac{1}{2 θ} [[0 \leq p_{2} \leq θ]] \\ P (p_{1}, p_{2} | H_{1} = 0, H_{2} = 1) & = & P (p_{1}, p_{2} | H_{1} = 1, H_{2} = 0) \\ = & \frac{1}{{(1 - θ)}^{2}} [[θ \leq p_{1} \leq 1]] \cdot [[θ \leq p_{2} \leq 1]] \end{array}

$\begin{eqnarray*} P\left(p_{1},p_{2}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2\theta}[\![0\le p_{2}\le\theta]\!]\\ P\left(p_{1},p_{2}|H_{1}=0,H_{2}=1\right) & = & P\left(p_{1},p_{2}|H_{1}=1,H_{2}=0\right)\\ & = & \frac{1}{\left(1-\theta\right)^{2}}[\![\theta\le p_{1}\le1]\!]\cdot[\![\theta\le p_{2}\le1]\!] \end{eqnarray*}$

[0, 1]^{2}

$[0,1]^{2}$

Geben Sie hier die Bildbeschreibung ein

Die Marginalisierung ergibt und ähnlich für .

\begin{array}{rcl} P (p_{1} | H_{1} = 0, H_{2} = 0) & = & \frac{1}{2 θ} [[0 \leq p_{1} \leq θ]] + \frac{1}{2} \\ P (p_{1} | H_{1} = 0, H_{2} = 1) & = & \frac{1}{(1 - θ)} [[θ \leq p_{1} \leq 1]] \end{array}

$\begin{eqnarray*} P\left(p_{1}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2}\\ P\left(p_{1}|H_{1}=0,H_{2}=1\right) & = & \frac{1}{\left(1-\theta\right)}[\![\theta\le p_{1}\le1]\!] \end{eqnarray*}$

p_{2}

$p_{2}$

Außerdem sei Dies impliziert, dass

\begin{array}{rcl} P (H_{2} = 0 | H_{1} = 0) & = & P (H_{1} = 0 | H_{2} = 0) = \frac{2 θ}{1 + θ} \\ P (H_{2} = 1 | H_{1} = 0) & = & P (H_{1} = 1 | H_{2} = 0) = \frac{1 - θ}{1 + θ} . \end{array}

$\begin{eqnarray*} P\left(H_{2}=0|H_{1}=0\right) & = & P\left(H_{1}=0|H_{2}=0\right)=\frac{2\theta}{1+\theta}\\ P\left(H_{2}=1|H_{1}=0\right) & = & P\left(H_{1}=1|H_{2}=0\right)=\frac{1-\theta}{1+\theta}. \end{eqnarray*}$

\begin{array}{rcl} P (p_{1} | H_{1} = 0) & = & \sum_{h_{2} \in {0, 1}} P (p_{1} | H_{1} = 0, h_{2}) P (h_{2} | H_{1} = 0) \\ = & \frac{1}{2 θ} [[0 \leq p_{1} \leq θ]] \frac{2 θ}{1 + θ} + \frac{1}{2} \frac{2 θ}{1 + θ} + \frac{1}{(1 - θ)} [[θ \leq p_{1} \leq 1]] \frac{1 - θ}{1 + θ} \\ = & \frac{1}{1 + θ} [[0 \leq p_{1} \leq θ]] + \frac{θ}{1 + θ} + \frac{1}{1 + θ} [[θ \leq p_{1} \leq 1]] \\ = & U [0, 1] \end{array}

$\begin{eqnarray*} P\left(p_{1}|H_{1}=0\right) & = & \sum_{h_{2}\in\{0,1\}}P\left(p_{1}|H_{1}=0,h_{2}\right)P\left(h_{2}|H_{1}=0\right)\\ & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]\frac{2\theta}{1+\theta}+\frac{1}{2}\frac{2\theta}{1+\theta}+\frac{1}{\left(1-\theta\right)}[\![\theta\le p_{1}\le1]\!]\frac{1-\theta}{1+\theta}\\ & = & \frac{1}{1+\theta}[\![0\le p_{1}\le\theta]\!]+\frac{\theta}{1+\theta}+\frac{1}{1+\theta}[\![\theta\le p_{1}\le1]\!]\\ & = & U\left[0,1\right] \end{eqnarray*}$ ist einheitlich, wie es für p-Werte unter der Nullhypothese erforderlich ist. Gleiches gilt aufgrund der Symmetrie für .

p_{2}

$p_{2}$

Um die gemeinsame Verteilung , berechnen wir $P\left(H_{1},H_{2}\right)$

\begin{array}{rcl} P (H_{2} = 0 | H_{1} = 0) P (H_{1} = 0) & = & P (H_{1} = 0 | H_{2} = 0) P (H_{2} = 0) \\ \Leftrightarrow \frac{2 θ}{1 + θ} P (H_{1} = 0) & = & \frac{2 θ}{1 + θ} P (H_{2} = 0) \\ \Leftrightarrow P (H_{1} = 0) & = & P (H_{2} = 0) := q \end{array}

$\begin{eqnarray*} P\left(H_{2}=0|H_{1}=0\right)P\left(H_{1}=0\right) & = & P\left(H_{1}=0|H_{2}=0\right)P\left(H_{2}=0\right)\\ \Leftrightarrow\frac{2\theta}{1+\theta}P\left(H_{1}=0\right) & = & \frac{2\theta}{1+\theta}P\left(H_{2}=0\right)\\ \Leftrightarrow P\left(H_{1}=0\right) & = & P\left(H_{2}=0\right):=q \end{eqnarray*}$ Daher ist die gemeinsame Verteilung gegeben durch was bedeutet, dass .

\begin{array}{rcl} P (H_{1}, H_{2}) & = & \begin{array}{ccc} H_{2} = 0 & H_{2} = 1 \\ H_{1} = 0 & \frac{2 θ}{1 + θ} q & \frac{1 - θ}{1 + θ} q \\ H_{1} = 1 & \frac{1 - θ}{1 + θ} q & \frac{1 + θ - 2 q}{1 + θ} \end{array} \end{array}

$\begin{eqnarray*} P\left(H_{1},H_{2}\right) & = & \begin{array}{ccc} & H_{2}=0 & H_{2}=1\\ H_{1}=0 & \frac{2\theta}{1+\theta}q & \frac{1-\theta}{1+\theta}q\\ H_{1}=1 & \frac{1-\theta}{1+\theta}q & \frac{1+\theta-2q}{1+\theta} \end{array} \end{eqnarray*}$

0 \leq q \leq \frac{1 + θ}{2}

$0\le q\le\frac{1+\theta}{2}$

Warum ist es ein Gegenbeispiel

Nun sei für das Signifikanzniveau von Interesse. Die Wahrscheinlichkeit, mit dem korrigierten Signifikanzniveau mindestens ein falsches Positiv zu erhalten, wenn beide Hypothesen falsch sind (dh ), ist gegeben durch da alle Werte von und niedriger sind als , , und $\theta=\frac{\alpha}{2}$ $\alpha$ $\frac{\alpha}{2}$ $H_{i}=0$

\begin{array}{rcl} P ((p_{1} \leq \frac{α}{2}) \lor (p_{2} \leq \frac{α}{2}) | H_{1} = 0, H_{2} = 0) & = & 1 \end{array}

$\begin{eqnarray*} P\left(\left(p_{1}\le\frac{\alpha}{2}\right)\vee\left(p_{2}\le\frac{\alpha}{2}\right)|H_{1}=0,H_{2}=0\right) & = & 1 \end{eqnarray*}$

p_{1}

$p_{1}$

p_{2}

$p_{2}$

\frac{α}{2}

$\frac{\alpha}{2}$

H_{1} = 0

$H_1=0$

H_{2} = 0

$H_2=0$ Durch den Bau. Die Bonferroni-Korrektur würde jedoch behaupten, dass die FWER kleiner als .

α

$\alpha$

— fabelhaft
quelle

Sehr gute Frage. Ich wünschte, jemand würde antworten

Das Gegenteil von konservativ ist in der statistischen Welt antikonservativ!

— AdamO

Wusste das nicht. Ich dachte, ich lese ein paar Mal liberal.

— Fabee

siehe stats.stackexchange.com/questions/235856/…

Danke, aber das ist etwas anderes. Sie benötigen eine zusätzliche Annahme (Abhängigkeit ist nicht das Problem, siehe meine Antwort unten).

— Fabee

Antworten:

Bonferroni kann unabhängig von der Abhängigkeit nicht liberal sein, wenn Ihre p-Werte korrekt berechnet werden.

Sei A das Ereignis eines Fehlers vom Typ I in einem Test und sei B das Ereignis eines Fehlers vom Typ I in einem anderen Test. Die Wahrscheinlichkeit, dass A oder B (oder beide) auftreten, ist:

P (A oder B) = P (A) + P (B) - P (A und B)

Da P (A und B) eine Wahrscheinlichkeit ist und daher nicht negativ sein kann, gibt es für diese Gleichung keine Möglichkeit, einen höheren Wert als P (A) + P (B) zu erzeugen. Der höchste Wert, den die Gleichung erzeugen kann, ist, wenn P (A und B) = 0 ist, dh wenn A und B vollkommen negativ abhängig sind. In diesem Fall können Sie die Gleichung wie folgt ausfüllen, wobei sowohl Nullen als auch ein Bonferroni-angepasstes Alpha-Niveau von 0,025 angenommen werden:

P (A oder B) = P (A) + P (B) - P (A und B) = 0,025 + 0,025 - 0 = 0,05

Bei jeder anderen Abhängigkeitsstruktur ist P (A und B)> 0, sodass die Gleichung einen Wert erzeugt, der noch kleiner als 0,05 ist. Zum Beispiel ist unter perfekter positiver Abhängigkeit P (A und B) = P (A). In diesem Fall können Sie die Gleichung wie folgt ausfüllen:

P (A oder B) = P (A) + P (B) - P (A und B) = 0,025 + 0,025 - 0,025 = 0,025

Ein weiteres Beispiel: Unter Unabhängigkeit ist P (A und B) = P (A) P (B). Daher:

P (A oder B) = P (A) + P (B) - P (A und B) = 0,025 + 0,025 - 0,025 * 0,025 = 0,0494

Wie Sie sehen können, ist es unmöglich, dass die Wahrscheinlichkeit, dass ein oder beide Ereignisse größer als 0,05 sind, größer als 0,05 ist, wenn ein Ereignis eine Wahrscheinlichkeit von 0,025 und ein anderes Ereignis ebenfalls eine Wahrscheinlichkeit von 0,025 hat, da es für P ( A oder B) größer als P (A) + P (B) sein. Jede gegenteilige Behauptung ist logisch unsinnig.

"Aber das setzt voraus, dass beide Nullen wahr sind", könnte man sagen. "Was ist, wenn die erste Null wahr und die zweite falsch ist?" In diesem Fall ist B unmöglich, da Sie keinen Fehler vom Typ I haben können, bei dem die Nullhypothese falsch ist. Somit ist P (B) = 0 und P (A und B) = 0. Füllen wir also unsere allgemeine Formel für die FWER von zwei Tests aus:

P (A oder B) = P (A) + P (B) - P (A und B) = 0,025 + 0 - 0 = 0,025

Die FWER ist also wieder <.05. Beachten Sie, dass die Abhängigkeit hier irrelevant ist, da P (A und B) immer 0 ist. Ein weiteres mögliches Szenario ist, dass beide Nullen falsch sind, aber es sollte offensichtlich sein, dass die FWER dann 0 und damit <0,05 wäre.

— Bonferroni
quelle

Danke für die Antwort. Ich lese Ableitungen wie deine oft und sie machen Sinn. Ich sehe den Fehler in meinem Beispiel jedoch immer noch nicht. Wenn es unsinnig ist, wo ist mein Fehler? Ich habe das Gefühl, dass das Problem darin besteht, dass Sie als , aber für die FWER interessieren Sie sich tatsächlich für . Sie können immer noch aber . Das habe ich in meinem Beispiel konstruiert. Ihr Beispiel ist richtig, wenn der Fehler vom Typ I unabhängig von der anderen Hypothese ist.

P (A)

$P(A)$

P (A | H_{0}^{1} = T r u e)

$P(A|H_0^{1}=True)$

P (A \lor B | H_{0}^{(1)} = T r u e \land H_{0}^{(2)} = T r u e)

$P(A\vee B|H_0^{(1)}=True\wedge H_0^{(2)}=True)$

P (A | H_{0}^{(1)} = T r u e) = α

$P(A|H_0^{(1)}=True)=\alpha$

P (A | H_{0}^{(1)} = T r u e \land H_{0}^{(2)} = T r u e) > α

$P(A|H_0^{(1)}=True\wedge H_0^{(2)}=True)>\alpha$

— Fabee

Bei der Berechnung der FWER wird davon ausgegangen, dass beide Nullen wahr sind. P (A) bedeutet dasselbe wie P (A | null 1 ist wahr) und P (B) bedeutet dasselbe wie P (B | null 2 ist wahr). Bedingte Wahrscheinlichkeiten sind daher nicht erforderlich. Vielleicht sollten Sie Ihr Beispiel ohne sie umschreiben. Beachten Sie, dass Sie einfach ein Szenario erstellt haben, in dem die p-Werte nicht korrekt berechnet wurden, wenn "alle Werte von p1 und p2 niedriger als α / 2 sind, vorausgesetzt, H1 = 0 und H2 = 0". Wenn jedes p bei α / 2 getestet wird, muss jedes p per Definition eine α / 2-Signifikanzwahrscheinlichkeit haben, aber Sie haben anscheinend jedem p eine 100% ige Signifikanzchance gegeben.

— Bonferroni

Ich glaube nicht, dass du recht hast. Wenn die FWER-Fehlerrate davon ausgeht, dass beide Nullen wahr sind, möchte ich P berechnen (A oder B | null 1 und 2 sind wahr). Die Zerlegung, die Sie in Ihrer Antwort geschrieben haben, benötigt daher die gleiche Bedingung auf der rechten Seite. Nur bei Verwendung bedingter Wahrscheinlichkeiten wird dies deutlich. Meine p-Werte werden korrekt berechnet, da P (A | null 1 ist wahr) immer noch wie es sollte. Beachten Sie jedoch, dass P (A | null 1 ist wahr) im Allgemeinen nicht dasselbe ist wie P (A | null 1 und null 2 sind wahr).

α

$\alpha$

— Fabee

Zeichnen Sie ein großes Quadrat auf ein Blatt Papier, das den gesamten Probenraum möglicher Ergebnisse darstellt. Zeichnen Sie dann einen Kreis, der 2,5% der Fläche des Quadrats einnimmt, und beschriften Sie ihn mit A. Zeichnen Sie dann einen weiteren Kreis, der 2,5% der Fläche des Quadrats einnimmt, und beschriften Sie ihn mit B. Überlappen Sie A und B so wenig oder so viel wie Sie wollen (dh mit der Abhängigkeit zwischen A und B spielen). Sie werden feststellen, dass die kombinierte Fläche von A und B nicht mehr als 2,5% + 2,5% = 5% betragen kann.

— Bonferroni

Es scheint, dass Sie über die Wahrscheinlichkeit auf einer sehr fundamentalen Ebene verwirrt sind und noch nicht bereit sind, die Mathematik anzugehen. Wir nehmen an, dass beide Nullen wahr sind, da dies die Situation ist, die die maximale FWER erzeugt. Wenn beide Nullen falsch sind, kann offensichtlich überhaupt kein Fehler vom Typ I auftreten. Und wenn eine Null wahr und eine Null falsch ist, ist die Fehlerrate einfach die Alpha-Stufe, die Sie zum Testen der wahren verwenden.

— Bonferroni

Ich denke, ich habe endlich die Antwort. Ich benötige eine zusätzliche Anforderung für die Verteilung von . Vorher habe ich nur verlangt, dass zwischen 0 und 1 einheitlich ist. In diesem Fall ist mein Beispiel korrekt und Bonferroni wäre zu liberal. Wenn ich jedoch zusätzlich die Gleichmäßigkeit von benötige , ist es leicht abzuleiten, dass Bonferroni niemals zu konservativ sein kann. Mein Beispiel verstößt gegen diese Annahme. Allgemeiner ausgedrückt wird davon ausgegangen, dass die Verteilung aller p-Werte unter der Annahme, dass alle Nullhypothesen wahr sind, die Form einer Kopula haben muss : Gemeinsam müssen sie nicht einheitlich sein, aber nur geringfügig. $P(p_1,p_2|H_1=0, H_2=0)$ $P(p_1|H_1=0)$ $P(p_1|H_1=0, H_2=0)$

Kommentar: Wenn mich jemand auf eine Quelle verweisen kann, in der diese Annahme klar angegeben ist (Lehrbuch, Papier), werde ich diese Antwort akzeptieren.

— fabelhaft
quelle