Ist ein Mann-Whitney-Test für Daten, bei denen Annahmen nicht erfüllt sind, fast so leistungsfähig wie ein T-Test für Daten, bei denen Annahmen erfüllt sind?
Ein Satz wie "so mächtig" funktioniert nicht wirklich als allgemeine Aussage.
Die Leistung ist in verschiedenen Verteilungsmodellen nicht besonders vergleichbar. Die Größe eines bestimmten Effekts hat in verschiedenen Teilen der Verteilung unterschiedliche Bedeutungen. Stellen Sie sich vor, Sie haben eine Verteilung, die ziemlich hoch ist, aber einen schweren Schwanz hat. Inwiefern ähnelt eine bestimmte Abweichungsgröße etwas mit einem viel flacheren Zentrum und einem kleineren Schwanz? Eine kleine Abweichung ist möglicherweise genauso leicht zu erfassen, aber eine große Abweichung ist möglicherweise (im Vergleich zu der anderen Verteilungsmöglichkeit, für die wir die Leistung vergleichen möchten) schwieriger.
Bei zwei möglichen Sätzen von Normalverteilungen, einem Paar mit einem großen SD und einem Paar mit einem kleinen SD, ist es leicht zu sagen: „Nun, die Leistung wird nur mit der Standardabweichung skaliert. Wenn wir unsere Effektgröße als Anzahl der Standardabweichungen definieren, können wir die beiden Leistungskurven in Beziehung setzen.
Aber jetzt mit unterschiedlich geformten Verteilungen gibt es keine offensichtliche Wahl der Skala. Wir müssen einige Entscheidungen treffen, wie wir sie vergleichen wollen. Welche Entscheidungen wir treffen, bestimmt, wie sie "vergleichen".
Wie vergleiche ich beispielsweise die Leistung, wenn die Daten Cauchy sind, mit der Leistung, wenn es sich bei den Daten um eine skalierte Beta handelt (2,2)? Was ist eine vergleichbare Effektgröße? Der Cauchy unten hat mehr von seiner Verteilung zwischen -1 und 1 und weniger von seiner Verteilung zwischen -3 und 3 als der andere. Ihre Interquartilbereiche sind beispielsweise unterschiedlich. Was ist unsere Vergleichsbasis?
Wenn Sie dieses Rätsel lösen können, prüfen Sie nun, ob eine der Verteilungen nach links und die andere bimodal ist oder eine Vielzahl anderer Möglichkeiten.
Sie können die Leistung immer noch unter bestimmten Annahmen berechnen, aber der Vergleich eines Tests über verschiedene Verteilungsannahmen hinweg anstelle von zwei Tests unter einer bestimmten Verteilungsannahme ist konzeptionell sehr schwierig.