Wenn Sie unabhängige statistische Tests mit α als Signifikanzniveau durchführen und die Null für jeden Test einzeln ermittelt wird, die langfristige Fehlerrate des Typs I jedoch über den Satz von 3 Tests hinweg höher ist. Wenn Sie der Meinung sind, dass es sinnvoll ist, diese drei Tests zu gruppieren / zusammenzufassen, sollten Sie die Typ-I-Fehlerrate für den gesamten Satz auf α haltenkα Fall ermittelt, ist es einfach eine Ziehung aus einer Zufallsvariablen, ob Sie "Signifikanz" finden oder nicht. Insbesondere wird es aus einer Binomialverteilung mit und n = k genommen . Wenn Sie beispielsweise vorhaben , 3 Tests mit α = 0,05 durchzuführen , und (ohne Ihr Wissen) in jedem Fall kein Unterschied besteht, besteht eine Wahrscheinlichkeit von 5%, in jedem Test ein signifikantes Ergebnis zu erzielen. Auf diese Weise wird die Fehlerrate vom Typ I auf α gehaltenp=αn=kα=.05αα und nicht nur für sich. Wie solltest du vorgehen? Es gibt zwei , die Mitte nähert sich von der ursprünglichen auf Verschiebung (dh α o ) auf einen neuen Wert (dh α n e w ):ααoαnew
Bonferroni: Passen Sie das zur Beurteilung der "Signifikanz" verwendete so an, dassα
αnew=αok
Dunn-Sidak: Stellen Sie mit einα
αnew=1−(1−αo)1/k
(Beachten Sie, dass der Dunn-Sidak davon ausgeht, dass alle Tests innerhalb des Satzes unabhängig voneinander sind und eine familienweise Typ-I-Fehlerinflation ergeben könnten, wenn diese Annahme nicht zutrifft.)
Es ist wichtig zu beachten , dass bei Prüfungen durchführt, gibt es zwei Arten von Fehlern , die Sie vermeiden wollen, Typ I (dh sagen , es ist ein Unterschied , wenn es nicht ein) und Typ II (dh sagen , es nicht ist ein Unterschied, wenn es tatsächlich ist). Wenn Leute über dieses Thema diskutieren, diskutieren sie in der Regel nur Fehler des Typs I und scheinen sich dessen nur bewusst zu sein bzw. sich damit zu befassen. Außerdem wird häufig übersehen, dass die berechnete Fehlerrate nur dann gültig ist , wenn alle Nullen wahr sind. Es liegt auf der Hand, dass Sie keinen Fehler vom Typ I machen können, wenn die Nullhypothese falsch ist, aber es ist wichtig, diese Tatsache bei der Erörterung dieses Problems explizit zu berücksichtigen.
Ich erwähne dies, weil es Implikationen dieser Tatsachen gibt, die anscheinend oft unberücksichtigt bleiben. Erstens, wenn k>1 bietet der Dunn-Sidak-Ansatz eine höhere Leistung (obwohl der Unterschied bei kleinem sehr klein sein kann ) und sollte daher immer bevorzugt werden (falls zutreffend). Zweitens sollte ein "Step-Down" -Ansatz verwendet werden. Das heißt, testen Sie zuerst den größten Effekt. Wenn Sie davon überzeugt sind, dass die Null in diesem Fall nicht erreicht wird, beträgt die maximal mögliche Anzahl von Fehlern des Typs I k - 1 , daher sollte der nächste Test entsprechend angepasst werden und so weiter. (Dies macht Menschen oft unangenehm und sieht aus wie Angeln, ist es aber nichtkk−1Angeln, da die Tests unabhängig sind und Sie beabsichtigten, sie durchzuführen, bevor Sie jemals die Daten gesehen haben. Dies ist nur eine Möglichkeit, optimal einzustellen .) α
Das oben Gesagte gilt unabhängig davon, wie Sie Typ I in Bezug auf Typ II-Fehler bewerten. Von vornherein gibt es jedoch keinen Grund zu der Annahme, dass Fehler des Typs I schlimmer sind als Fehler des Typs II (obwohl dies anscheinend von allen angenommen wird). Stattdessen ist dies eine Entscheidung, die vom Forscher getroffen werden muss und spezifisch für diese Situation sein muss. Persönlich, wenn ich theoretisch vorgeschlagene a priori orthogonale Kontraste ablaufe , passe ich normalerweise .α
(Und dies wiederum zu erklären, weil es wichtig ist, alle oben gehen davon aus, dass die Tests unabhängig sind. Wenn die Kontraste sind nicht unabhängig, wie wenn mehrere Behandlungen des jeweils im Vergleich zur gleichen Kontrolle sind, ein anderer Ansatz als Einstellung, wie Dunnett-Test sollte verwendet werden.) α