Rang und Z-Transformation statt Wilcoxon?

Andrew Gelman schlägt in einem kürzlich veröffentlichten Beitrag in seinem Blog vor, einen Rang zu verwenden, den Rang in einen Z-Score umzuwandeln und dann parametrische Tests und Tools zu verwenden, anstatt nicht parametrische Tests durchzuführen. Davon habe ich noch nie gehört.

Eine Suche bei Google hat mich auf diese R-Funktion im Paket GenABEL hingewiesen , die die Rang + Z-Transformation eines Datenvektors durchzuführen scheint, aber ich konnte keine Artikel finden , die die Idee der Verwendung parametrischer Tests für die transformierten Daten bewerten oder diskutieren von Wilcoxon-Tests.

Kann mich jemand auf Literatur zu dieser Methode verweisen?

— Jacques Wainer
quelle

Dies ist kein parametrischer Test. Sie haben nur eine asymptotische Näherung der Nullverteilung einer rangbasierten Statistik verwendet.

— Dsaxton

@dsaxton In vielen Fällen handelt es sich um einen nichtparametrischen Test (oder vielmehr eine Annäherung an einen). Das Ersetzen von Rängen durch feste (angesichts der Stichprobengröße) Punktzahlen ändert nichts an der mangelnden Abhängigkeit von den ursprünglichen Verteilungsformen unter der Null.

— Glen_b -Rate State Monica

(Zieht Conover [1] aus dem Bücherregal ...)

Diese Idee ist ziemlich alt; es geht zumindest auf van der Waerden (1952/1953) [2] [3] zurück, der einen Test vorschlug, der dem Kruskal Wallis entspricht, dessen Ränge jedoch durch normale Werte ersetzt wurden. (Die Idee, geordnete zufällige Normalwerte anstelle einer Annäherung an ihre Erwartung oder ihren Median zu verwenden, ist vielleicht sogar etwas älter.)

Laut Conover schlagen Fisher und Yates (1957) [4] vor, Beobachtungen durch erwartete normale Werte (dh transformierte Ränge) in einer Vielzahl von Tests zu ersetzen, bei denen Normalität angenommen wird.

Die asymptotische relative Effizienz bei Normal wird 1 sein, was es ziemlich attraktiv klingen lässt ... jedoch ist der Vorteil gegenüber dem Wilcoxon-Mann-Whitney (Leistungsgewinn) - selbst bei Normal - ziemlich gering, und Wenn die Verteilung schwerer als normal ist (z. B. logistisch), kann dies nachteilig sein. (Einige Simulationen deuten darauf hin, dass dies tatsächlich der Fall ist: Wenn die Verteilung nicht bereits nahezu normal ist - in diesem Fall hat die Transformation keinen Vorteil -, kann eine solche Transformation tatsächlich an Leistung verlieren.)

Chernoff & Lehmann [5] berechnen die asymptotische Kraft für eine Vielzahl von Verteilungen; Wo es mindestens einen sehr kurzen Schwanz gibt (wie die Uniform), kann der normale Scores-Test für eine Schichtalternative gegen den Wilcoxon-Mann-Whitney einen viel besseren ARE haben - besser als der T-Test selbst. Ihre Ergebnisse stimmen mit meinen Simulationen für Fälle mit schwerem Schwanz überein.

Beachten Sie, dass im Fall von zwei Stichproben die beiden Stichproben überhaupt nicht normal sind, da der Mittelwertabstand groß wird, während die kombinierte Stichprobe ganz normal aussieht:

Geben Sie hier die Bildbeschreibung ein

Infolgedessen werden nicht alle Eigenschaften des normalen Tests auf den Test mit normalen Bewertungen übertragen, und das Verhalten bei größeren Abständen (mit kleinen Proben) ist möglicherweise nicht intuitiv.

Die Tests, die mit dieser Idee erhalten wurden, werden manchmal zusammen als Normal-Score-Tests bezeichnet , wobei der Suchbegriff (beispielsweise über Google) eine Reihe von Referenzen enthält.

Zum Beispiel diskutiert Richard Darlington hier , dies für den von Wilcoxon unterzeichneten Ränge-Test zu tun. Er weist darauf hin, dass es einen Vorteil gegenüber dem einfachen Rangtest gibt, da dadurch die Anzahl der gebundenen Werte der Teststatistik verringert wird.

Bevor ich Seiten darauf schreibe, überlasse ich es Ihnen, weiter zu suchen.

Conover listet eine Reihe anderer Referenzen auf und hat einiges an Diskussion, daher würde ich definitiv empfehlen, das zu lesen.

Gelmans Argument scheint jedoch die Bequemlichkeit zu sein - nicht jedes Mal, wenn sich die Situation ändert, muss ein neuer Test entwickelt werden; Wenn jedoch Bequemlichkeit das Hauptproblem ist, besteht bereits die Möglichkeit, Permutationstests für jede gewünschte Statistik zu verwenden. [Beim Ansatz mit normalen Punktzahlen besteht die Schwierigkeit darin, dass wir immer noch einen geeigneten Rang benötigen - Sie können nicht einfach Dinge, die nicht vergleichbar sind, unter die Null stellen und das richtige Verhalten erwarten. Es gibt ein ähnliches Problem mit dem Permutationstest, da Sie ebenfalls eine Austauschbarkeit unter Null benötigen.]

Sie erwähnen eine R-Funktion, können sie jedoch in R einfach mit Funktionen, die bereits mit R geliefert werden, ordnen und in normale Werte umwandeln.

sleepWenn Sie beispielsweise die Daten in R verwenden, führen Sie einen T-Test folgendermaßen durch:

 t.test(extra ~ group, data = sleep)  # Welch
 t.test(extra ~ group, data = sleep, var.equal=TRUE)  # equal-variance
 t.test(qqnorm(extra,plot=FALSE)$x ~ group, data = sleep)  # normal scores

[1] Conover, WJ (1980),
Practical Nonparameteric Statistics , 2e.
Wiley. S. 316–327.

(Aus dem obigen Wikipedia-Link geht hervor, dass die Diskussion in 3e (1999) auf S. 396 beginnt.)

[2] van der Waerden, BL (1952),
"Ordnungsprüfungen für das Zwei-Stichproben-Problem und ihre Potenz",
Proceedings der Koninklijke Nederlandse Akademie van Wetenschappen , Serie A 55 ( Indagationes Mathematicae 14 ), 453–458.

[3] van der Waerden, BL (1953),
"Ordnungsprüfungen für das Zwei-Stichproben-Problem. II, III",
Verfahren der Koninklijke Nederlandse Akademie van Wetenschappen , Serie A 56 ( Indagationes Mathematicae , 15 ), 303–310 & 311–316.

(Es gibt auch Korrekturen an dem Papier von 1952 auf Seite 80 dieses Bandes.)

[4] Fisher RA und Yates F. (1957)
Statistische Tabellen für die biologische, landwirtschaftliche und medizinische Forschung , 5e, Oliver & Boyd, Edinburgh.

[5] Hodges, JL; Lehmann, EL (1961),
"Vergleich der Normalwerte und Wilcoxon-Tests",
Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Band 1: Beiträge zur Theorie der Statistik , 307-317,
University of California Press, Berkeley, Kalifornien
http://projecteuclid.org/euclid.bsmsp/1200512171 .

— Glen_b -Reinstate Monica
quelle

Glen, dies ist ein interessantes Thema (über das ich gerne mehr erfahren möchte) und eine gute Antwort von Ihnen. Aber kann ich Sie bitten, neben nur Links noch etwas Fleisch (Diskurs / Schlussfolgerungen) hinzuzufügen? Und möglicherweise einige Links zu ähnlichen Fragen und Antworten auf dieser Website sammeln? Vielen Dank.

— ttnphns

Tolles Thema. Gibt es veröffentlichte Äpfel-zu-Äpfel-Vergleiche eines nichtparametrischen Ansatzes und eines Normal-Scores-Ansatzes (mit parametrischem Test) für Tests auf Mittelwertunterschiede? Mein Kollege und ich haben einige für Korrelationsprüfungen, aber das ist alles, was mir bewusst ist. Im Korrelationskontext führen normale Scores zu einer etwas besseren Leistung als der Rangtest (Spearman-Korrelation) oder der nicht transformierte parametrische Test (Pearson). Ich bin gespannt, ob ähnliche Ergebnisse in anderen Kontexten auftreten.

— Anthony

@ Anthony. Der von Glen erwähnte Punkt [5] enthält einen Apfel-zu-Apfel-Vergleich von Normalwerten und Wilcoxon basierend auf der asymptotischen Effizienz. Der Gelehrte listet 114 Zitate zu diesem Artikel auf, von denen einige andere Vergleichsformen bieten sollten.

— Jacques Wainer

χ^{2}, d f = 1

$\chi^2, df=1$

Entschuldigung für alle Kommentare, aber ich kann mich nicht auf einen so lustigen Thread zurückhalten! Noch ein Gedanke - @ Glen_bs Abbildung weist auf ein Problem hin, das Zimmerman (2011) "Vererbung" nannte. Selbst nach der Transformation können die einzelnen Stichproben einige der Eigenschaften der ursprünglichen, nicht transformierten Verteilung "erben". redalyc.org/articulo.oa?id=16917012005

— Anthony