Wenn die ursprüngliche Aussage die Bedingungen, unter denen sie gilt, nicht wesentlich einschränkt, ist Field in dieser Hinsicht einfach falsch.
Antwort auf den zitierten Abschnitt:
In der Tat bedeutet dies, dass es fast genauso funktioniert wie der Mann-Whitney-Test!
Nein, das tut es wirklich nicht. Sie testen wirklich auf verschiedene Arten von Dingen. Wenn sich beispielsweise zwei nahezu symmetrische Verteilungen in der Streuung unterscheiden, sich jedoch nicht in der Position unterscheiden, kann der Kolmogorov-Smirnov diese Art von Unterschied (in ausreichend großen Proben im Verhältnis zum Effekt), aber der Wilcoxon-Mann-Whitney identifizieren kippen.
Dies liegt daran, dass sie für verschiedene Zwecke entwickelt wurden.
"Dieser Test hat jedoch tendenziell eine bessere Leistung als der Mann-Whitney-Test, wenn die Stichprobengröße weniger als etwa 25 pro Gruppe beträgt, und es lohnt sich daher, eine Auswahl zu treffen, wenn dies der Fall ist."
n < 25
[Es kann eine Situation geben, in der die Behauptung wahr ist; Wenn Field nicht erklärt, in welchem Kontext seine Behauptung gilt, kann ich es wahrscheinlich nicht erraten.]
Hier ist eine Leistungskurve für n = 20 pro Gruppe. Das Signifikanzniveau liegt für jeden Test etwas über 3% (tatsächlich ist das erreichbare Signifikanzniveau für den KS etwas höher, und ich habe nicht versucht, einen randomisierten Test zu verwenden, um diesen Unterschied auszugleichen, sodass ihm in diesem Vergleich ein kleiner Vorteil eingeräumt wurde ):
Wie wir sehen, ist der Wilcoxon-Mann-Whitney in diesem Fall (dem ersten, den ich ausprobiert habe) deutlich stärker.
Bei n = 5 bleibt der Kolmogorov-Smirnov für diese Situation weniger mächtig. [Also, wovon zum Teufel redet er? Vergleicht er die Macht für eine Situation, die im Zitat nicht erwähnt wird? Ich weiß es nicht, aber wenn wir nur das tun, was hier zitiert wird, sollten wir diese Behauptung nicht zum Nennwert nehmen. Bei der ersten Überprüfung war es falsch, und - basierend auf einer breiteren Vertrautheit mit den beiden Tests - würde ich ohne weiteres wetten, dass es für eine Reihe anderer Situationen falsch ist.]
Bei Stichprobengrößen von 4 und 11 für Schichtalternativen (und normale Populationen) ist Wilcoxon-Mann-Whitney wiederum besser.
Bei der Variablen, die Sie betrachten, ist eine geeignete Alternative wahrscheinlich eher eine Skalenverschiebung. Aber wenn eine gewisse Leistung (wie eine Quadratwurzel oder eine Kubikwurzel oder besser noch ein Protokoll) Ihrer Daten nicht allzu normal aussieht, sollten diese Ergebnisse, die ich erwähne, relevant sein. Wenn Sie diskrete oder nicht aufgeblasene Daten haben, die einen Unterschied machen können, aber meine Wette wäre, dass der Kolmogorov-Smirnov den Wilcoxon-Mann-Whitney dann auch nicht überholt. [Ich werde dies derzeit nicht weiter verfolgen, da nicht klar ist, ob es für Ihre Situation relevant ist.]
Darüber hinaus sind die mit Kolmogorov-Smirnov erreichbaren Signifikanzniveaus bei kleinen Stichprobengrößen sehr unübersichtlich. Sie können Tests oft nicht in der Nähe der üblichen Signifikanzniveaus erhalten, die Sie wahrscheinlich wollen. (Das WMW schneidet in Bezug auf die verfügbaren Testgrößen viel besser ab als das KS. Es gibt eine gute Möglichkeit, diese Situation der Spielfreudigkeit dramatisch zu verbessern, ohne den nichtparametrischen oder den rangbasierten Charakter solcher Tests zu verlieren - das tut es auch nicht randomisierte Tests beinhalten - aber es scheint aus irgendeinem Grund sehr selten verwendet zu werden.)
α = 0,05
Wenn Sie sich in einer Situation befinden, in der der Wilcoxon-Mann-Whitney testet, was Sie testen möchten, würde ich definitiv nicht empfehlen, stattdessen den Kolmogorov-Smirnov zu verwenden. Ich würde jeden Test für das verwenden, was sie testen sollen. Dort machen sie es normalerweise ziemlich gut.
Der beste Weg, um herauszufinden, was am besten ist, besteht darin, einige Simulationen in Situationen durchzuführen, die für die Art der Daten, über die Sie verfügen, realistisch wären. Dann können Sie sehen, wann es was macht.
Sollte ich auch bei der Angabe der Einnahmen zusammen mit den p-Werten den Mittelwert und die Standardabweichung oder den Median und den IQR verwenden, da die Daten nicht parametrisch sind?
Daten sind nur Daten. Sie sind weder parametrisch noch nichtparametrisch - das ist eine Eigenschaft von Modellen und Inferenzverfahren, die wir verwenden und die auf ihnen beruhen (Schätzung, Test, Intervalle). Parametrisch bedeutet "definiert bis zu einer festen, endlichen Anzahl von Parametern", was kein Attribut von Daten, sondern von Modellen ist. Wenn Sie nicht einfach beide Wertesätze angeben können (was meine Präferenz wäre) und stattdessen den einen oder anderen wählen müssen, welcher ist wissenschaftlich relevanter oder in Bezug auf Ihre Interessenfrage?
[Beachten Sie, dass Wilcoxon-Mann-Whitney weder Mittelwerte noch Mediane vergleicht (es sei denn, Sie fügen einige Annahmen hinzu, die in diesem Fall meiner Meinung nach nicht annähernd zutreffen). Auch der Kolmogorov-Smirnov nicht.]