Effektgröße nach Wilcoxon Rang Test unterschrieben?


18

Einige Autoren (z. B. Pallant, 2007, S. 225; siehe Bild unten) schlagen vor, die Effektgröße für einen von Wilcoxon signierten Rangtest zu berechnen, indem die Teststatistik durch die Quadratwurzel der Anzahl der Beobachtungen dividiert wird:

r=Znx+ny

ZGibt die Teststatistik sowohl von SPSS (siehe Bild unten) als auch von wilcoxsign_testR aus. (Siehe auch meine verwandte Frage: Teststatistik vs. Linearstatistik in wilcoxsign_test )

Andere schlagen die Bravais-Pearson ( ) oder Spearman ( ) (je nach Datentyp) vor. rSr=cÖv(XY.)sd(X)×sd(Y.)rS

Wenn Sie sie berechnen, sind die beiden rnicht einmal annähernd gleich. ZB für meine aktuellen Daten:

r = 0,23 (für )r=Znx+ny

r = 0,43 (Pearson)

Dies würde ganz andere Effektgrößen implizieren.

Welches ist die richtige Effektgröße und in welcher rBeziehung stehen die beiden zueinander?


Seiten 224 (unterer Teil) und 225 von Pallant, J. (2007). SPSS Survival Manual:

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben



3
Ich lasse es lieber so wie es ist - wenn Bravais in einer Sprache Anerkennung verdient, verdient er es in einer anderen Sprache! Ich schätze es, eine Lücke in meiner Ausbildung zu schließen.
Glen_b

1
Ja, weil ich einen Test brauche, der mit Krawatten umgehen kann.

2
nnn=nx+ny

1
Ich persönlich dachte, dass Z / sqrt (n) eine Option sein könnte. Wikipedia über Mann-Whitney verweist auf eine PDF-Veröffentlichung von Kirby, in der auch gepaarte Wilcoxon berücksichtigt werden. Ich habe den Artikel nicht selbst gelesen.
TTNPHNS

Antworten:


6
  • Wenn Sie keine Krawatten haben, würde ich den Anteil der Nachwerte angeben, der unter den entsprechenden Vorwerten liegt.
  • Wenn Sie Bindungen haben, können Sie den Anteil der After-Werte, die geringer sind als zuvor, an der Gesamtzahl der ungebundenen Paare oder alle drei Proportionen (<, =,>) und möglicherweise die Summe der beiden angegebenen angeben bedeutungsvoller. Zum Beispiel könnte man sagen, 33% hatten weniger Angst vor Statistiken, 57% waren unverändert und 10% hatten mehr Angst nach dem Kurs, so dass 90% die gleichen oder bessere waren als zuvor.

NzNz/Nz/N

Es gibt jedoch noch eine andere Falte. Während Sie eine Schätzung der Größe des Gesamteffekts wünschen, verwenden die Benutzer in der Regel den von Wilcoxon signierten Rangtest mit nur ordinalen Daten. Das heißt, sie vertrauen nicht darauf, dass die Daten die Stärke der Verschiebung innerhalb eines Schülers zuverlässig anzeigen können, sondern nur, dass eine Verschiebung stattgefunden hat. Das bringt mich zu dem oben diskutierten verbesserten Verhältnis.


Wenn Sie dagegen vertrauen, dass die Werte von sich aus aussagekräftig sind (z. B. haben Sie nur den vorzeichenbehafteten Rangtest für seine Robustheit gegenüber Normalität und Ausreißern verwendet), können Sie einfach einen rohen Mittelwert oder einen Medianwert oder den standardisierten Mittelwert verwenden als Maß für die Wirkung.


2
+1 Ihre vorgeschlagenen Effektmaße sind leicht zu verstehen und hängen auch mit der Teststatistik zusammen.
John

2

Ohne zu wissen, welche Art von Daten ausgewertet wurden, ist es sehr schwierig, hier gute Ratschläge zu geben. Und das ist wirklich alles, was Sie bekommen können. Es gibt einfach kein bestes Maß für die Effektgröße bei Fragen wie diesen ... vielleicht jemals.

Bei den in der Frage genannten Effektgrößen handelt es sich um standardisierte Effektgrößen. Es ist jedoch durchaus möglich, dass die Mittelwerte oder Mediane der ursprünglichen Maße in Ordnung sind. Wenn Sie zum Beispiel messen, wie lange es dauert, bis ein Herstellungsprozess abgeschlossen ist, sollte der Zeitunterschied eine völlig vernünftige Effektgröße haben. Alle Änderungen im Prozess, zukünftige Messungen, Messungen über Systeme und Messungen über Fabriken hinweg sind pünktlich. Vielleicht möchten Sie den Mittelwert oder vielleicht möchten Sie den Median oder sogar den Modus, aber das erste, was Sie tun müssen, ist die tatsächliche Messskala zu überprüfen und festzustellen, ob die Effektgröße dort angemessen zu interpretieren ist und in engem Zusammenhang mit der Messung steht.

Um darüber nachzudenken, sollten Effekte standardisiert werden, die indirekter und auf vielfältige Weise gemessen werden. Beispielsweise können sich psychologische Skalen im Laufe der Zeit in vielerlei Hinsicht ändern und versuchen, eine zugrunde liegende Variable zu ermitteln, die nicht direkt bewertet wird. In diesen Fällen möchten Sie standardisierte Effektgrößen.

Bei standardisierten Effektgrößen ist nicht nur die Verwendung entscheidend, sondern auch deren Bedeutung. Wie Sie in Ihrer Frage implizieren, wissen Sie auch nicht, was sie bedeuten, und das ist das Entscheidende. Wenn Sie den standardisierten Effekt nicht kennen, können Sie ihn nicht richtig melden, richtig interpretieren oder richtig anwenden. Wenn Sie die Daten auf verschiedene Arten diskutieren möchten, hindert Sie absolut nichts daran, mehr als eine Effektgröße zu melden. Sie können Ihre Daten in Bezug auf eine lineare Beziehung wie die Produktmomentkorrelation oder in Bezug auf die Beziehung zwischen den Rängen mit Spearman diskutierenrund Unterschiede zwischen diesen oder geben Sie einfach alle Informationen in der Tabelle an. Daran ist überhaupt nichts auszusetzen. Vor allem aber müssen Sie entscheiden, was Ihre Ergebnisse bedeuten sollen. Diese Informationen können nicht beantwortet werden und erfordern möglicherweise weitaus mehr Informationen und domänenspezifisches Wissen, als für eine Frage in einem solchen Forum angemessen ist.

Und denken Sie immer metaanalytisch darüber nach, wie Sie Effekte melden. Werden die Leute in Zukunft in der Lage sein, die von mir gemeldeten Ergebnisse zu nutzen und sie in andere zu integrieren? Vielleicht gibt es in Ihrem Bereich einen Standard für diese Dinge. Möglicherweise haben Sie einen nicht parametrischen Test ausgewählt, weil Sie den Schlussfolgerungen anderer zu zugrunde liegenden Verteilungen nicht vertrauen und Ihre Annahmen in einem Bereich, in dem hauptsächlich parametrische Tests verwendet werden, konservativer gestalten möchten. In diesem Fall gibt es nichts auszusetzen, wenn zusätzlich eine Effektgröße angegeben wird, die normalerweise für die parametrischen Tests verwendet wird. Diese und viele andere Aspekte müssen in Betracht gezogen werden, wenn Sie überlegen, wie Sie Ihren Befund in eine größere Literatur ähnlicher Forschung einordnen. Typischerweise lösen gute beschreibende Statistiken diese Probleme.

Das ist also der primäre Rat. Ich habe ein paar zusätzliche Kommentare. Wenn Sie möchten, dass Ihre Effektgröße in engem Zusammenhang mit dem Test steht, den Sie durchgeführt haben, ist die Zauf dieser Empfehlung basierende Empfehlung offensichtlich die beste. Ihre standardisierte Effektgröße bedeutet dasselbe wie der Test. Aber sobald Sie das nicht tun, ist nichts falsch daran, fast alles andere zu verwenden, auch nicht so etwas wie Cohens d, das mit parametrischen Tests in Verbindung gebracht wird. Es gibt keine Normalitätsannahme für Berechnungsmittel, Standardabweichungen oderdPartituren. Tatsächlich gibt es schwächere Annahmen als für den empfohlenen Korrelationskoeffizienten. Und immer gute beschreibende Maßnahmen melden. Wiederum gehen deskriptive Maßnahmen nicht von Annahmen aus, gegen die Sie verstoßen würden, sondern berücksichtigen deren inhaltliche Bedeutung. Sie melden beschreibende Statistiken, die etwas über Ihre Daten aussagen, die Sie sagen möchten, und Mittelwerte und Mediane, die verschiedene Dinge sagen.

Wenn Sie über wiederholte Messungen im Vergleich zu unabhängigen Designeffektgrößen sprechen möchten, ist dies eine völlig neue Frage.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.