Beweisen Sie die Äquivalenz der folgenden beiden Formeln für die Spearman-Korrelation


14

Aus Wikipedia wird die Rangkorrelation von Spearman berechnet, indem die Variablen und in und konvertiert werden und anschließend die Pearson-Korrelation zwischen den berechnet wird:Xix i y iYixiyi

Berechne Spearman über Wikipedia

In dem Artikel heißt es jedoch weiter, dass die obige Formel äquivalent zu ist , wenn zwischen den Variablen und keine Bindungen bestehenY iXiYi

zweite Formel zur Berechnung von Spearman

Dabei ist die Differenz der Ränge.di=yixi

Kann jemand dies bitte nachweisen? Ich habe keinen Zugang zu den Lehrbüchern, auf die der Wikipedia-Artikel verweist.

Antworten:


14

ρ=i(xix¯)(yiy¯)i(xix¯)2i(yiy¯)2

Da es keine Gleichheit gibt, bestehen sowohl als auch aus den ganzen Zahlen von bis einschließlich .y 1 nxy1n

Daher können wir den Nenner umschreiben:

i(xix¯)(yiy¯)i(xix¯)2

Der Nenner ist aber nur eine Funktion von :n

i(xix¯)2=ixi2nx¯2=n(n+1)(2n+1)6n((n+1)2)2=n(n+1)((2n+1)6(n+1)4)=n(n+1)((8n+46n6)24)=n(n+1)((n1)12)=n(n21)12

Nun schauen wir uns den Zähler an:

i(xix¯)(yiy¯)=ixi(yiy¯)ix¯(yiy¯)=ixiyiy¯ixix¯iyi+nx¯y¯=ixiyinx¯y¯=ixiyin(n+12)2=ixiyin(n+1)123(n+1)=n(n+1)12.(3(n+1))+ixiyi=n(n+1)12.[(n1)(4n+2)]+ixiyi=n(n+1)(n1)12n(n+1)(2n+1)/6+ixiyi=n(n+1)(n1)12ixi2+ixiyi=n(n+1)(n1)12i(xi2+yi2)/2+ixiyi=n(n+1)(n1)12i(xi22xiyi+yi2)/2=n(n+1)(n1)12i(xiyi)2/2=n(n21)12di2/2

Zähler Nenner

=n(n+1)(n1)/12di2/2n(n21)/12=n(n21)/12di2/2n(n21)/12=16di2n(n21) ,.

Daher

ρ=16di2n(n21).


5
Sie könnten die letzten 80% dieser Arbeit eliminieren, indem Sie mit der Beobachtung beginnen, dass unter Standort- und Maßstabsänderungen invariant ist, wodurch sich das Problem darauf reduziert, in als ; Die Formel lautet offensichtlich . Dann ist die einzige wirkliche Arbeit, die erledigt werden muss, die Berechnung des Nenners. ρxiyi(xiyi)2xi2=yi2=112di2=12(xiyi)2=1xiyi
Whuber

@whuber +1, das ist ein bisschen ordentlicher. Aber ich denke, ich lasse es in der längeren, weniger ordentlichen Bull-at-a-Gate-Form.
Glen_b -Reinstate Monica

danke, beide antworten sind gut, aber ich habe diese akzeptiert, da es die ist, die ich selbst versucht habe.
Alex

Ich sollte meine Gründe für den prosaischeren Weg erläutern - die anderen Antworten sind ordentlich, aufschlussreich und klug, erfordern jedoch Erkenntnisse, die wahrscheinlich nur von den besseren Schülern selbst generiert werden. Der Vorteil, zu zeigen, dass es für unkomplizierte Manipulationen völlig zugänglich ist, besteht darin, dass es auch für mäßig fähige Studenten, die keine Einsicht haben, greifbar sein sollte. Manchmal ist es hilfreich zu wissen, dass Sie keine aufschlussreichen Tricks benötigen (für diejenigen, die sie nicht sehen).
Glen_b -Reinstate Monica

Ich denke, es hängt von Ihrer Ansicht ab, was einen "Trick", eine "Manipulation" und eine "Einsicht" ausmacht. Lange Akkus komplizierter algebraischer Berechnungen bieten, wie Sie es sich vorstellen, wenig oder gar keine Einsicht (und bieten auch viele Möglichkeiten für Fehler) - und ich befürchte, dass die Schüler sie für sich genommen als gewaltig und unmotiviert ansehen. Andere Operationen, wie eine vorläufige Standardisierung (die hier so hilfreich ist), können zunächst als "Tricks" angesehen werden, sollten jedoch nach einigen Anwendungen als einsichtige und grundlegende Werkzeuge angesehen werden.
whuber

10

Wir sehen, dass in der zweiten Formel der quadratische euklidische Abstand zwischen den beiden (eingestuften) Variablen erscheint: . Die entscheidende Intuition zu Beginn wird sein, wie mit in Beziehung gesetzt werden könnte . Es ist über den Kosinussatz eindeutig verwandt . Wenn wir die beiden Variablen zentriert haben, ist der Cosinus in der Formel des verknüpften Theorems gleich (es kann leicht bewiesen werden, wir nehmen dies hier als gegeben an). Und h 2 (die quadratische euklidische Norm) ist N σ 2 , die Quadratsumme in einer zentrierten Variablen. Die Formel des Theorems sieht also so aus: D 2 x yD2=Σdi2D2rrh2Nσ2. Bitte beachten Sie auch eine andere wichtige Sache (die möglicherweise separat bewiesen werden muss): Wenn DatenRänge sind, istD2für zentrierte und nicht zentrierte Daten gleich.Dxy2=Nσx2+Nσy22NσxNσyrD2

Da die beiden Variablen eingestuft wurden, sind ihre Varianzen gleich, , so dass D 2 = 2 N σ 2 - 2 N σ 2 r .σx=σy=σD2=2Nσ22Nσ2r

. Es sei daran erinnert, dass die eingestuften Daten aus einerdiskreten Gleichverteilungmit einer Varianz(N2-1)/12 stammen. Durch Einsetzen in die Formel ergibt sichr=1-6D2r=1D22Nσ2(N21)/12 .r=16D2N(N21)


8

Die Algebra ist einfacher, als es zunächst erscheinen mag.

Meiner Meinung nach wird durch das Ausarbeiten der algebraischen Manipulationen wenig Gewinn oder Einsicht erzielt. Stattdessen zeigt eine wirklich einfache Identität, warum quadratische Differenzen verwendet werden können, um den (üblichen Pearson-) Korrelationskoeffizienten auszudrücken. Wenn Sie dies auf den Sonderfall anwenden, bei dem die Daten Ränge sind, erhalten Sie das Ergebnis. Es weist den bisher mysteriösen Koeffizienten auf

6n(n21)

als die Hälfte des Kehrwerts der Varianz der Ränge . (Wenn Bindungen vorhanden sind, erhält dieser Koeffizient eine kompliziertere Formel, ist jedoch immer noch die Hälfte des Kehrwerts der Varianz der den Daten zugewiesenen Ränge.)1,2,,n

Sobald Sie dies gesehen und verstanden haben, wird die Formel unvergesslich. Vergleichbare (aber komplexere) Formeln, die mit Bindungen umgehen, in nichtparametrischen statistischen Tests wie dem Wilcoxon-Rangsummentest oder in räumlichen Statistiken (wie Morans I, Gearys C und anderen) auftauchen, werden sofort verständlich.


Betrachten sie eine beliebige Menge von gepaarten Daten mit Mitteln ˉ X und ˉ Y und Varianzen s 2 X und s 2 Y . Durch Rezentrierung die Variablen an ihrem Mittel ˉ X und ˉ Y und mit ihren Standardabweichungen s X und s Y wie Messeinheiten, werden die Daten neu ausgedrückt werden in Bezug auf die standardisierten Werte(Xi,Yi)X¯Y¯sX2sY2X¯Y¯sXsY

(xi,yi)=(XiX¯sX,YiY¯sY).

Per Definition ist der Pearson-Korrelationskoeffizient der Originaldaten das Durchschnittsprodukt der standardisierten Werte.

ρ=1ni=1nxiyi.

Die Polarisationsidentität bezieht Produkte auf Quadrate. Für zwei Zahlen und y sie behauptetxy

xy=12(x2+y2(xy)2),

das ist leicht zu überprüfen. Wenn Sie dies auf jeden Term in der Summe anwenden, erhalten Sie

ρ=1ni=1n12(xi2+yi2(xiyi)2).

Da und y i standardisiert wurden, sind ihre durchschnittlichen Quadrate beide Einheit, von wo ausxiyi

(1)ρ=12(1+11ni=1n(xiyi)2)=112(1ni=1n(xiyi)2).

Der Korrelationskoeffizient unterscheidet sich von seinem maximal möglichen Wert um die Hälfte der mittleren quadratischen Differenz der standardisierten Daten.1

Dies ist eine universelle Korrelationsformel, die unabhängig von den ursprünglichen Daten gültig ist (vorausgesetzt, beide Variablen haben Standardabweichungen ungleich Null). (Erfahrene Leser dieser Website werden erkennen, dass dies in engem Zusammenhang mit der geometrischen Charakterisierung der Kovarianz steht, die unter Wie würden Sie jemandem die Kovarianz erklären, der nur den Mittelwert versteht? )


In dem speziellen Fall , in dem die und Y i sind unterschiedliche Reihen ist jeweils eine Permutation der gleichen Folge von Zahlen 1 , 2 , ... , n . Also ˉ X = ˉ Y = ( n + 1 ) / 2 und mit einem winzigen Rechenschritt finden wirXiYi1,2,,nX¯=Y¯=(n+1)/2

sX2=sY2=1ni=1n(i(n+1)/2)2=n2112

(which, happily, is nonzero whenever n>1). Therefore

(xiyi)2=((Xi(n+1)/2)(Yi(n+1)/2))2(n21)/12=12(XiYi)2n21.

This nice simplification occurred because the Xi and Yi have the same means and standard deviations: the difference of their means therefore disappeared and the product sXsY became sX2 which involves no square roots.

Plugging this into the formula (1) for ρ gives

ρ=16n(n21)i=1n(XiYi)2.

2
(+1) The geometric interpretation in terms of your famous "rectangles for covariance" answer is very neat but I wonder if casual readers will see it - perhaps a sketch diagram might help (I was tempted to add one myself!). For the curious: the formula r=1sxy2/2 is number 9 in the list of Thirteen Ways to Look at the Correlation Coefficient, by Joseph Lee Rodgers and W. Alan Nicewander in The American Statistician , Vol. 42, No. 1. (Feb., 1988), pp. 59-66. stat.berkeley.edu/~rabbee/correlation.pdf
Silverfish

2
@Silver Thank you for the helpful comments. The Rodgers and Nicewander article is summarized on our site at stats.stackexchange.com/a/104577. Someday I might draw the diagram you describe... .
whuber

5

High school students may see the PMCC and Spearman correlation formulae years before they have the algebra skills to manipulate sigma notation, though they may well know the method of finite differences for deducing the polynomial equation for a sequence. So I have tried to write a "high school proof" for the equivalence: finding the denominator using finite differences, and minimising the algebraic manipulation of sums in the numerator. Depending on the students the proof is presented to, you may prefer this approach to the numerator, but combine it with a more conventional method for the denominator.

Denominator, i(xix¯)2i(yiy¯)2

With no ties, the data are the ranks {1,2,,n} in some order, so it is easy to show x¯=n+12. We can reorder the sum Sxx=i=1n(xix¯)2=k=1n(kn+12)2, though with lower grade students I'd likely write this sum out explicitly rather than in sigma notation. The sum of a quadratic in k will be cubic in n, a fact that students familiar with the finite difference method may grasp intuitively: differencing a cubic produces a quadratic, so summing a quadratic produces a cubic. Determining the coefficients of the cubic f(n) is straightforward if students are comfortable manipulating Σ notation and know (and remember!) the formulae for k=1nk and k=1nk2. But they can also be deduced using finite differences, as follows.

When n=1, the data set is just {1}, x¯=1, so f(1)=(11)2=0.

For n=2, the data are {1,2}, x¯=1.5, so f(2)=(11.5)2+(21.5)2=0.5.

For n=3, the data are {1,2,3}, x¯=2, so f(3)=(12)2+(22)2+(32)2=2.

These computations are fairly brief, and help reinforce what the notation i=1n(xix¯)2 means, and in short order we produce the finite difference table.

Finite difference table for Sxx

We can obtain the coefficients of f(n) by cranking out the finite difference method as outlined in the links above. For instance, the constant third differences indicate our polynomial is indeed cubic, with leading coefficient 0.53!=112. There are a few tricks to minimise drudgery: a well-known one is to use the common differences to extend the sequence back to n=0, as knowing f(0) immediately gives away the constant coefficient. Another is to try extending the sequence to see if f(n) is zero for an integer n - e.g. if the sequence had been positive but decreasing, it would be worth extending rightwards to see if we could "catch a root", as this makes factorisation easier later. In our case, the function seems to hover around low values when n is small, so let's extend even further leftwards.

Extended finite difference table for Sxx

Aha! It turns out we have caught all three roots: f(1)=f(0)=f(1)=0. So the polynomial has factors of (n+1), n, and (n1). Since it was cubic it must be of the form:

f(n)=an(n+1)(n1)

We can see that a must be the coefficient of n3 which we already determined to be 112. Alternatively, since f(2)=0.5 we have a(2)(3)(1)=0.5 which leads to the same conclusion. Expanding the difference of two squares gives:

Sxx=n(n21)12

Since the same argument applies to Syy, the denominator is SxxSyy=Sxx2=Sxx and we are done. Ignoring my exposition, this method is surprisingly short. If one can spot that the polynomial is cubic, it is necessary only to calculate Sxx for the cases n{1,2,3,4} to establish the third difference is 0.5. Root-hunters need only extend the sequence leftwards to n=0 and n=1, by when all three roots are found. It took me a couple of minutes to find Sxx this way.

Numerator, i(xix¯)(yiy¯)

I note the identity (ba)2b22ab+a2 which can be rearranged to:

ab12(a2+b2(ba)2)

If we let a=xix¯=xin+12 and b=yiy¯=yin+12 we have the useful result that ba=yixi=di because the means, being identical, cancel out. That was my intuition for writing the identity in the first place; I wanted to switch from working with the product of the moments to the square of their differences. We now have:

(xix¯)(yiy¯)=12((xix¯)2+(yiy¯)2di2)

Hopefully even students unsure how to manipulate Σ notation can see how summing over the data set yields:

Sxy=12(Sxx+Syyi=1ndi2)

We have already established, by reordering the sums, that Syy=Sxx, leaving us with:

Sxy=Sxx12i=1ndi2

The formula for Spearman's correlation coefficient is within our grasp!

rS=SxySxxSyy=Sxx12idi2Sxx=1idi22Sxx

Substituting the earlier result that Sxx=112n(n21) will finish the job.

rS=1idi2212n(n21)=16idi2n(n21)
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.