Kurze Antwort: Sehr nicht robust. Die Korrelation ist ein Maß für die lineare Abhängigkeit , und wenn eine Variable nicht als lineare Funktion der anderen geschrieben werden kann (und dennoch die angegebene Randverteilung aufweist), können Sie keine perfekte (positive oder negative) Korrelation haben. Tatsächlich können die möglichen Korrelationswerte stark eingeschränkt sein.
Das Problem ist, dass während die Populationskorrelation immer zwischen und , der genaue erreichbare Bereich stark von den Randverteilungen abhängt. Ein schneller Beweis und eine Demonstration:1- 11
Erreichbarer Korrelationsbereich
Wenn die Verteilungsfunktion und die Randverteilungsfunktionen und , gibt es einige schöne obere und untere Schranken für ,
genannt Fréchet-Grenzen. Dies sind
(Versuche es zu beweisen; es ist nicht sehr schwierig.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y)HFGH
H-( x , y) ≤ H( x , y) ≤ H+( x , y) ,
H-( x , y)H+( x , y)= max ( F( x ) + G ( y) - 1 , 0 )= min ( F( x ) , G ( y) ) .
Die Grenzen sind selbst Verteilungsfunktionen. Lassen Sie eine gleichmäßige Verteilung haben. Die obere Schranke ist die Verteilungsfunktion von und die untere Schranke ist die Verteilungsfunktion von .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U( X, Y) = ( F-( U) , G-( U) )( F-( - U) , G-( 1 - U) )
Unter Verwendung dieser Variante der Formel für die Kovarianz ist
wir sehen, dass wir die maximale und minimale Korrelation erhalten, wenn gleich bzw. ist, dh wenn ist (positiv bzw. negativ) ) monotone Funktion von .H H + H - Y X
Cov( X, Y) = ∬H( x , y) - F( x ) G ( y) dx dy,
HH+H-Y.X
Beispiele
Hier einige Beispiele (ohne Beweise):
Wenn und normalverteilt sind, erhalten wir das Maximum und das Minimum, wenn die übliche bivariate Normalverteilung hat, wobei als lineare Funktion von . Das heißt, wir erhalten das Maximum für
Hier sind die Grenzen (natürlich) und , egal welche Mittel und Varianzen und haben.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY.( X, Y)Y.X-11XY
Y.= μY.+ σY.X- μXσX.
- 11XY.
Wenn und logarithmische Normalverteilungen haben, ist die Untergrenze niemals erreichbar, da dies bedeuten würde, dass für einige und positive als geschrieben werden könnte und niemals negativ sein kann. Es gibt (leicht hässliche) Formeln für die genauen Grenzen, aber lassen Sie mich nur einen Sonderfall nennen. Wenn und logarithmische Standardverteilungen haben (dh wenn sie sind sie normale Standardverteilungen), beträgt der erreichbare Bereich . (Im Allgemeinen ist auch die Obergrenze eingeschränkt.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]XY.Y.Y.= a - b XeinbYXY[−1/e,1]≈[−0.37,1]
Wenn eine Standardnormalverteilung hat und eine Standardlognormalverteilung hat, sind die Korrelationsgrenzen
Y ± 1XY
±1e−1−−−−√≈0.76.
Beachten Sie, dass alle Grenzen für die Populationskorrelation gelten . Die Stichprobenkorrelation kann sich leicht über die Grenzen hinaus erstrecken, insbesondere bei kleinen Stichproben (kurzes Beispiel: Stichprobengröße 2).
Schätzung der Korrelationsgrenzen
Es ist eigentlich recht einfach, die oberen und unteren Grenzen der Korrelation abzuschätzen, wenn Sie anhand der Randverteilungen simulieren können. Für das letzte Beispiel oben können wir diesen R-Code verwenden:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Wenn wir nur tatsächliche Daten haben und die Randverteilungen nicht kennen, können wir trotzdem die obige Methode anwenden. Es ist kein Problem , dass die Variablen abhängig sind, solange die Beobachtungen Paare abhängig sind. Aber es hilft, viele Beobachtungspaare zu haben .
Daten transformieren
Es ist natürlich möglich , die Daten so zu transformieren, dass sie (geringfügig) normalverteilt sind, und dann die Korrelation auf den transformierten Daten zu berechnen. Das Problem ist die Interpretierbarkeit. (Und warum sollte die Normalverteilung anstelle einer anderen Verteilung verwendet werden, bei der eine lineare Funktion von ?) Bei Daten, die bivariant normalverteilt sind, hat die Korrelation eine gute Interpretation (ihr Quadrat ist die Varianz einer Variablen, die durch die andere erklärt wird) ). Dies ist hier nicht der Fall.XYX
Was Sie hier wirklich tun, ist, ein neues Maß an Abhängigkeit zu schaffen, das nicht von den Randverteilungen abhängt. Sie erstellen also ein kopula- basiertes Maß für die Abhängigkeit. Es gibt bereits mehrere solcher Maßnahmen, wobei Spearmans ρ und Kendalls τ die bekanntesten sind. (Wenn Sie wirklich an Abhängigkeitskonzepten interessiert sind, ist es keine schlechte Idee, Copulas zu untersuchen.)
Abschließend
Ein paar abschließende Gedanken und Ratschläge: Nur die Korrelation zu betrachten, hat ein großes Problem: Es lässt Sie aufhören zu denken. Wenn man dagegen Streudiagramme betrachtet, beginnt man oft zu überlegen. Mein Hauptratschlag wäre daher, die Streudiagramme zu untersuchen und die Abhängigkeit explizit zu modellieren.
Das heißt, wenn Sie ein einfaches korrelationsähnliches Maß benötigen, würde ich nur Spearmans ρ (und das zugehörige Konfidenzintervall und die zugehörigen Tests) verwenden. Die Reichweite ist nicht eingeschränkt. Seien Sie sich jedoch der nicht-monotonen Abhängigkeit bewusst. Der Wikipedia-Artikel zur Korrelation enthält einige schöne Darstellungen, die mögliche Probleme veranschaulichen.