Wie vergleichen sich das Goodman-Kruskal-Gamma und die Kendall-Tau- oder Spearman-Rho-Korrelationen?

31

In meiner Arbeit vergleichen wir vorhergesagte Rankings mit wahren Rankings für einige Datensätze. Bis vor kurzem haben wir nur Kendall-Tau verwendet. Eine Gruppe, die an einem ähnlichen Projekt arbeitete, schlug vor, stattdessen das Goodman-Kruskal-Gamma zu verwenden und es vorzuziehen. Ich habe mich gefragt, was die Unterschiede zwischen den verschiedenen Rangkorrelationsalgorithmen sind.

Das Beste , was ich gefunden habe, war diese Antwort , die besagt, dass Spearman anstelle der üblichen linearen Korrelationen verwendet wird und dass Kendall-Tau weniger direkt ist und Goodman-Kruskal Gamma ähnlicher ist. Die Daten, mit denen ich arbeite, scheinen keine offensichtlichen linearen Korrelationen zu haben, und die Daten sind stark verzerrt und nicht normal.

Außerdem gibt Spearman im Allgemeinen eine höhere Korrelation als Kendall-Tau für unsere Daten an, und ich habe mich gefragt, was dies speziell über die Daten aussagt. Ich bin kein Statistiker, deshalb erscheinen mir einige der Artikel, die ich über diese Dinge lese, wie Jargon, sorry.

spearman-rho kendall-tau goodman-kruskal-gamma

— Poik
quelle

3

" Spearman meldet im Allgemeinen eine bessere Korrelation als Kendall-Tau für unsere Daten, und ich habe mich gefragt, was das speziell über die Daten aussagt " ... wahrscheinlich nichts; Kendall

τ

$\tau$ ist oft näher bei 0 als Spearman's

ρ

$\rho$ wenn die Korrelationen nicht wirklich nahe bei

0

$0$ oder

\pm 1

$\pm 1$ - es misst die Assoziation unterschiedlich; Die Tatsache, dass es in der Regel kleiner ist, bedeutet nicht, dass die Spearman-Korrelation „besser“ ist. Sie messen nur verschiedene Dinge an den Daten. Was würde Sie dazu bringen, "bessere Korrelation" zu sagen?

— Glen_b

1

Das war indirekt das Gleiche wie meine Frage, @Glen_b; außer, ich habe gefragt, warum die Algorithmen eine höhere Korrelation melden und was das verursachen würde. Ich werde "besser" in "höher" ändern, um meine Bedeutung ein wenig klarer zu machen. Sie haben Recht, dass sie verschiedene Dinge messen und dass die Zahlen nicht wirklich viel miteinander zu tun haben, aber ich wollte wissen, was die Zahlen tatsächlich bedeuten, was im Folgenden ausführlich beantwortet wird.

— Poik

29

Spearman Rho gegen Kendall Tau . Diese beiden sind rechnerisch so unterschiedlich, dass Sie ihre Größen nicht direkt vergleichen können. Spearman ist normalerweise um 1/4 bis 1/3 höher und dies lässt fälschlicherweise den Schluss zu, dass Spearman für einen bestimmten Datensatz "besser" ist. Der Unterschied zwischen Rho und Tau liegt in ihrer Ideologie, dem Varianzverhältnis für Rho und der Wahrscheinlichkeit für Tau. Rho ist ein gewöhnlicher Pearson R, der für Rangdaten angewendet wird, und wie R ist er empfindlicher für Punkte mit großen Momenten (dh Abweichungen vom Wolkenzentrum) als für Punkte mit kleinen Momenten. Daher ist rho nach dem Ranking sehr empfindlich für die Form der Wolkeerledigt: Der Koeffizient für eine längliche rhombische Wolke ist höher als der Koeffizient für eine längliche Hantelwolke (weil scharfe Kanten der ersten große Momente sind). Tau ist eine Erweiterung von Gamma und ist für alle Datenpunkte gleich empfindlich , so dass es weniger empfindlich für Besonderheiten in der Form der eingestuften Wolke ist. Tau ist "allgemeiner" als Rho, denn Rho ist nur dann gerechtfertigt, wenn Sie der Ansicht sind, dass die zugrunde liegende (modellhafte oder funktionsfähige) Beziehung zwischen den Variablen streng monoton ist. Während Tau nichtmonotone Grundkurven zulässt und misst, welcher monotone "Trend", positiv oder negativ, dort insgesamt vorherrscht. Rho ist in seiner Größe mit r vergleichbar; Tau ist nicht.

Kendall Tau als Gamma . Tau ist nur eine standardisierte Form von Gamma. Einige verwandte Kennzahlen haben alle den Zähler , unterscheiden sich jedoch in der Normalisierung des Nenners : $P-Q$

Gamma: $P+Q$
Somers D ("x-abhängig"): $P+Q+T_x$
Somers D ("y-abhängig"): $P+Q+T_y$
Somers D ("symmetrisch"): arithmetisches Mittel der beiden oben genannten
Kendalls Tau-b-Korr. (am besten für quadratische Tische geeignet): geometrisches Mittel dieser beiden
Kendalls Tau-c korr. (am besten für rechteckige Tische geeignet): $N^2(k-1)/(2k)$
Kendalls Tau-a-Korr. (nimmt keine Anpassung für Krawatten vor): $N(N-1)/2 = P+Q+T_x+T_y+T_{xy}$

wobei - Anzahl der Beobachtungspaare mit "Konkordanz", - mit "Inversion"; - Anzahl der Bindungen durch Variable X, - durch Variable Y, - durch beide Variablen; - Anzahl der Beobachtungen, - Anzahl der unterschiedlichen Werte in dieser Variablen, wobei diese Anzahl kleiner ist. $P$ $Q$ $T_x$ $T_y$ $T_{xy}$ $N$ $k$

Somit ist Tau in Theorie und Größe direkt mit Gamma vergleichbar. Rho ist theoretisch und betragsmäßig direkt mit Pearson . Nick Stauners nette Antwort hier zeigt, wie es möglich ist, Rho und Tau indirekt zu vergleichen. $r$

Siehe auch über Tau und Rho.

— ttnphns
quelle

14

Hier ist ein Zitat von Andrew Gilpin (1993), der Maurice Kendalls gegenüber Spearmans aus theoretischen Gründen befürwortet : $τ$ $ρ$

[Kendalls ] nähert sich schneller einer Normalverteilung als , da , die Stichprobengröße, zunimmt; und ist auch mathematisch besser handhabbar, insbesondere wenn Bindungen vorhanden sind. $τ$ $ρ$ $N$ $τ$

Ich kann nicht viel über Goodman-Kruskal hinzufügen, abgesehen davon , dass es in einer Stichprobe von Umfragedaten, mit denen ich in letzter Zeit gearbeitet habe, deutlich größere Schätzungen als Kendalls zu liefern scheint ... und natürlich merklich niedrigere Schätzungen als Spearman's . Allerdings hat ich auch versucht , ein paar Teil Berechnung Schätzungen (Foraita & Sobotka, 2012), und diejenigen , kamen näher an den Teil als der Teil ... Es dauerte eine ganze Menge an Verarbeitungszeit aber, so werde ich verlassen die Simulationstests oder mathematischen Vergleiche mit jemand anderem ... (wer würde wissen, wie man sie macht ...) $γ$ $τ$ $ρ$ $γ$ $ρ$ $τ$

$ρ$ $τ$ $ρ$ $τ$ $ρ$ $r$ $r^2$ $Z_r$ $τ$

\begin{aligned} r & = \sin (τ \cdot \frac{π}{2}) \\ ρ & = \frac{6}{π} (τ \cdot \arcsin (\frac{\sin (τ \cdot \frac{π}{2})}{2})) \end{aligned}

$\begin{aligned} r &= \sin\bigg(\tau\cdot\frac \pi 2 \bigg) \\ \rho &= \frac 6 \pi \bigg(\tau\cdot\arcsin \bigg(\frac{\sin(\tau\cdot\frac \pi 2)} 2 \bigg)\bigg) \end{aligned}$

ρ

$ρ$

r

$r$

$τ$ $ρ$ $ρ$ $ρ$ . Wenn es einen wesentlichen Unterschied gibt, ist es wahrscheinlich an der Zeit, die Vergrößerungslinse herauszubrechen, um festzustellen, was dafür verantwortlich ist.

$τ$ $r$ $τ$ $r$

Verweise

Foraita, R. & Sobotka, F. (2012). Validierung grafischer Modelle. gmvalid Package, v1.23. Das umfassende R-Archiv-Netzwerk. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993). Tabelle zur Umrechnung von Kendall's Tau in Spearman's Rho im Rahmen von Wirkungsgrößen für die Metaanalyse. Educational and Psychological Measurement, 53 (1), 87-92.

Kendall, MG (1962). Rangkorrelationsmethoden (3. Aufl.). London: Griffin.

— Nick Stauner
quelle

9

$\rho$ $\tau$ $\gamma$ $\gamma$ $\tau$ $X$ $Y$ $\gamma$ $X_{1}$ $X_{2}$ $Y$ $X$ $X$ $X$ $\gamma$

— Frank Harrell
quelle

2

Frank, kannst du es Spearman's ρ is related to the probability of majority concordance among random triplets of observationsgenauer erklären , wenn möglich nicht sehr mathematisch? Vielen Dank.

— ttnphns

1

Ich habe das vor vielen Jahren gelesen, wahrscheinlich in einem nichtparametrischen Statistik-Text. Ich konnte die Referenz nicht finden.

— Frank Harrell

1

Leider ... :-( Weil die Aussage selbst sehr faszinierend ist.

— TTNPHNS