Wann sollte der Wilcoxon-Rang-Summen-Test anstelle des ungepaarten T-Tests verwendet werden?


26

Dies ist eine Folgefrage zu dem, was Frank Harrell hier geschrieben hat :

Nach meiner Erfahrung ist der erforderliche Stichprobenumfang für die Genauigkeit der t-Verteilung häufig größer als der vorliegende Stichprobenumfang. Der Wilcoxon-Signed-Rank-Test ist, wie Sie sagten, äußerst effizient und robust. Daher bevorzuge ich ihn fast immer dem T-Test

Wenn ich es richtig verstehe, würden wir beim Vergleich der Position zweier nicht übereinstimmender Stichproben den Wilcoxon-Rang-Summen-Test dem ungepaarten t-Test vorziehen, wenn unsere Stichprobengrößen klein sind.

Gibt es eine theoretische Situation, in der wir den Wilcoxon-Rang-Summen-Test dem ungepaarten t-Test vorziehen würden, obwohl die Stichproben unserer beiden Gruppen relativ groß sind?

Meine Motivation für diese Frage ergibt sich aus der Beobachtung, dass bei einem T-Test mit einer nicht ganz so kleinen Stichprobe einer verzerrten Verteilung für eine einzelne Stichprobe ein falscher Typ-I-Fehler auftritt:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
Für mich scheint 0.0572 nahe genug bei 0.05 zu liegen.
mark999

Hi Mark - bei einer Wiederholung der Nullhypothese unter 100000 erwarten wir keinen Unterschied von 0,05. Im Allgemeinen würden wir eine Differenz von plus minus etwa dem Zweifachen von sqrt (0,05 * 0,95 / 100000) von 0,05 erwarten
Tal Galili

1
Ich stimme zu, dass es falsch ist. Ich meinte nur, dass es für praktische Zwecke nah genug zu sein scheint.
mark999

1
Eine verwandte Frage: Wie kann man zwischen einem t-Test oder einem nicht-parametrischen Test wählen, z. B. Wilcoxon in kleinen Stichproben , bei denen sowohl gepaarte als auch ungepaarte Tests berücksichtigt werden, sowie Alternativen zu Wilcoxon wie Brunner-Munzel. Es gibt auch eine ausgezeichnete Antwort von Frank Harrell, die erklärt, warum er sich in seiner Herangehensweise ausführlicher als im obigen Auszug gerechtfertigt fühlt (z. B. die Bedeutung der Invarianz von Rängen bei monotoner Transformation).
Silverfish

@ TalGalili: Warum würden Sie nicht erwarten, diesen Unterschied zu erreichen, wenn Sie einen T-Test durchführen und die Normalitätsannahme verletzt wird (ich sehe, dass Ihre Stichprobe exponentiell verteilt ist)? Ich frage hier aus der Perspektive eines Anfängers. Ich versuche nur zu verstehen, was wir erwarten, indem ich einen T-Test mit einer Stichprobe durchführe, wenn die Normalitätsannahme verletzt wird. Warum sollte der durchschnittliche Fehler vom Typ I kleiner als 5% oder größer als 5% sein? Ich sehe es so, dass wir testen und die Verteilung normal ist. H0:μ=50
Erosennin

Antworten:


23

Ja da ist. Zum Beispiel zerstört jede Stichprobe aus Verteilungen mit unendlicher Varianz den t-Test, nicht jedoch den Wilcoxon. Unter Bezugnahme auf nichtparametrische statistische Methoden (Hollander und Wolfe) sehe ich, dass die asymptotische relative Effizienz (ARE) des Wilcoxon im Verhältnis zum t-Test 1,0 für die Gleichverteilung beträgt, 1,097 (dh Wilcoxon ist besser) für die Logistik, 1,5 für das doppelte Exponential (Laplace) und 3.0 für das Exponential.

Hodges und Lehmann haben gezeigt, dass die minimale ARE des Wilcoxon im Vergleich zu jedem anderen Test 0,864 beträgt. Sie können also nie mehr als 14% Wirkungsgrad verlieren, wenn Sie ihn im Vergleich zu anderen Tests verwenden. (Natürlich ist dies ein asymptotisches Ergebnis.) Folglich sollte Frank Harrells Verwendung des Wilcoxon als Standard wahrscheinlich von fast jedem übernommen werden, auch von mir.

Bearbeiten: Bei der Beantwortung der folgenden Frage in Kommentaren ist der Hodges-Lehmann-Schätzer für diejenigen, die Konfidenzintervalle bevorzugen, der Schätzer, der dem Wilcoxon-Test "entspricht", und um diesen herum können Konfidenzintervalle konstruiert werden.


1
Gibt es eine einfache Möglichkeit, ein Konfidenzintervall zu ermitteln, wenn der Wilcoxon-Test verwendet wird? Es scheint die Menschen zu ermutigen, den p-Wert zu sehr zu betonen, noch mehr als dies bei einer parametrischen Methode der Fall wäre.
mark999

Ja, der Hodges-Lehmann-Schätzer ist der relevante Schätzer, und ich habe den Text der Antwort so bearbeitet, dass zukünftige Leser die Kommentare nicht durchgehen müssen.
Bogenschütze

Vielen Dank, jbowman. Ich kenne den Hodges-Lehmann-Schätzer nicht, werde aber sehen, was ich darüber herausfinden kann.
mark999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftware zeigt, wie mit R die Hodges-Lehmann-Schätzung und ihr Konfidenzintervall ermittelt werden.
Frank Harrell

1
(+1) von einem schwerfälligen rangfeindlichen Traditionalisten. Eine Herausforderung für Rangtests ist jedoch, dass die Hypothese vage ist. Es ist im Allgemeinen nicht die gleiche Hypothese wie der t-Test. Der t-Test testet immer eine mittlere Differenz, Wilcoxon testet eine gewichtete mittlere Rangdifferenz. Wenn der Rang-Mittelwert-Unterschied statistisch signifikant ist, wissen wir, dass die Verteilungen unterschiedlich sein müssen, auch wenn ihre Mittelwerte gleich sind. Keiner der Tests ist in der Lage, in allen Fällen Verteilungsunterschiede festzustellen . Ich sage nur so viel, weil ich Interpretierbarkeit bevorzuge. (1/2)
AdamO

24

Lassen Sie mich in den Kommentaren zu dir zurück zu unserer Diskussion bringen diese Frage. Der Wilcoxon-Summenrang-Test entspricht dem Mann-Whitney-U-Test (und seine direkte Erweiterung für mehr als zwei Proben wird als Kruskal-Wallis-Test bezeichnet). Sie können sowohl in Wikipedia als auch in diesem Text sehen, dass Mann-Whitney (oder Kruskal-Wallis) im Allgemeinen keine Mittelwerte oder Mediane vergleicht. Es vergleicht die Gesamtprävalenz von Werten: Welche der Stichproben ist "stochastisch größer"? Der Test ist verteilungsfrei. T-Test vergleicht Mittelwerte. Es wird eine Normalverteilung angenommen. Die Tests gehen also von unterschiedlichen Hypothesen aus. In den meisten Fällen planen wir nicht, die Mittelwerte spezifisch zu vergleichen, sondern möchten wissen, welche Stichprobe um Werte größer ist, und dies macht Mann-Whitney zum Standardtest für uns. Wenn andererseits beide Verteilungen symmetrisch sind, degeneriert die Aufgabe des Testens, ob eine Probe "größer" als die andere ist, in die Aufgabe des Vergleichs der beiden Mittelwerte, und wenn die Verteilungen bei gleichen Varianzen normal sind, wird t-Test etwas stärker.


+1 für das Zurückbinden Ihrer Antwort auf die Bedeutung der getesteten Hypothesen.
Josh Hemann

Mit "welche der Proben ist" stochastisch größer "" meinen Sie "welche der Proben nimmt im Allgemeinen größere Werte im Vergleich zu den anderen an"? Wenn nicht, was meinst du? Könnten Sie das bitte etwas näher erläutern?
Erdogan CEVHER

1
@Erdogan, ja, wir können sagen, wie du gesagt hast. Der strenge Wortlaut lautet: In einem zufällig ausgewählten Paar von Objekten, eines aus jeder Stichprobe, ist das Objekt aus der "stochastisch dominanteren" Stichprobe (um den Wert) höher als das Objekt aus der anderen Stichprobe mit einer Wahrscheinlichkeit> 0,5.
TTNPHNS
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.