Warum ist Pearsons ρ nur ein erschöpfendes Assoziationsmaß, wenn die gemeinsame Verteilung multivariat normal ist?


Antworten:


15

Es ist möglicherweise am besten, "Assoziationsmaß" in einer multivariaten Verteilung so zu verstehen, dass es aus allen Eigenschaften besteht, die gleich bleiben, wenn die Werte willkürlich neu skaliert und neu zentriert werden. Dadurch können die Mittelwerte und Abweichungen auf theoretisch zulässige Werte geändert werden (Abweichungen müssen positiv sein; Mittelwerte können beliebig sein).

Die Korrelationskoeffizienten ("Pearson's ") bestimmen dann vollständig eine multivariate Normalverteilung. Eine Möglichkeit, dies zu sehen, besteht darin, sich eine beliebige Formeldefinition anzusehen, z. B. Formeln für die Dichtefunktion oder die charakteristische Funktion. Sie betreffen nur Mittelwerte, Varianzen und Kovarianzen - aber Kovarianzen und Korrelationen können voneinander abgeleitet werden, wenn Sie die Varianzen kennen.ρ

Die multivariate Normal-Familie ist nicht die einzige Distributionsfamilie, die diese Eigenschaft genießt. Zum Beispiel hat jede multivariate t-Verteilung (für Freiheitsgrade über ) eine genau definierte Korrelationsmatrix und wird auch durch ihre ersten beiden Momente vollständig bestimmt.2


Habe ich recht, dass Kovarianz nach der Definition, die Sie hier anwenden, kein Maß für Assoziation ist? Da es dazu neigen würde, sich zu erweitern, wenn sich die Varianzen erweitern.
user1205901 - Monica

2
Das ist richtig. Obwohl Kovarianz offensichtlich mit einem Assoziationsmaß zusammenhängt, ist es selbst keines, da es auch von anderen Faktoren beeinflusst wird.
whuber

19

Varianten können auf eine Weise zugeordnet werden, für die die Pearson-Korrelation völlig blind ist.

Im multivariaten Normalfall ist die Pearson-Korrelation "erschöpfend" in dem Sinne, dass die einzig mögliche Assoziation durch indiziert wird . Bei anderen Verteilungen (auch bei solchen mit normalen Rändern) kann es jedoch zu Zuordnungen ohne Korrelation kommen. Hier sind ein paar Darstellungen von 3 normalen Zufallsvariablen (x, y und x, z); Sie sind in hohem Maße assoziiert (wenn Sie mir den Wert der -Variate sagen, sage ich Ihnen die beiden anderen, und wenn Sie mir das sagen, kann ich Ihnen das sagen ), aber sie sind alle unkorreliert.ρxyz

Bildbeschreibung hier eingeben

Hier ist ein weiteres Beispiel für assoziierte, aber nicht korrelierte Variablen:

Bildbeschreibung hier eingeben

(Der zugrunde liegende Punkt bezieht sich auf Verteilungen, obwohl ich ihn hier mit Daten illustriere.)

Selbst wenn die Variablen korreliert sind, sagt Ihnen die Pearson-Korrelation im Allgemeinen nicht, wie - Sie können sehr unterschiedliche Formen der Assoziation erhalten, die dieselbe Pearson-Korrelation haben (aber wenn die Variablen multivariat normal sind, wie ich Ihnen sage Über die Korrelation kann man genau sagen, wie standardisierte Variablen zusammenhängen).

Die Pearson-Korrelation "erschöpft" also nicht die Art und Weise, in der Variationen assoziiert werden - sie können assoziiert, aber nicht korreliert sein, oder sie können korreliert, aber auf ganz unterschiedliche Weise assoziiert sein. [Die Vielfalt der Möglichkeiten, wie Assoziationen auftreten können, die nicht vollständig durch Korrelation erfasst werden, ist recht groß. Wenn jedoch eine davon auftritt, können Sie keine multivariaten Normalen haben. Beachten Sie jedoch, dass nichts in meiner Diskussion impliziert , dass dies (das Wissen die mögliche Assoziation definiert) charakterisiert die multivariate normal, auch wenn der Titel Zitat scheint es vorzuschlagen.]ρ

(Eine gebräuchliche Methode zur Behandlung multivariater Assoziationen sind Copulas. Vor Ort gibt es zahlreiche Fragen, die sich auf Copulas beziehen. Einige davon sind möglicherweise hilfreich.)


Gibt es reale Daten mit solchen Distributionen?

@what Gibt es Daten aus der realen Welt, die sogar aus normalen Verteilungen stammen? Ich bezweifle es also (da meine Ränder in den Diagrammen alle normal waren), dass die Antwort sofort "nein" lautet. Der Sinn der Beispiele bestand darin, deutlich zu machen, warum die Assoziation zwischen Zufallsvariablen nicht so einfach ist wie manchmal angenommen (wie oft berechnet man eine Pearson-Korrelation, um die Assoziation zu messen? Sehr oft), und auch darauf hinzuweisen, dass sie normale Ränder haben und multivariat sind normal sind anders. Sehr reale Beispiele, bei denen die Pearson-Korrelation nicht erfasst, was gerade vor sich geht, treten mit Sicherheit auf.
Glen_b

Lassen Sie uns einen Moment lang nicht über Distributionen sprechen. Wenn wir Korrelationen aus einer Punktwolke berechnen, gehen wir von einer zugrunde liegenden "geometrisch geformten" (linearen, hyperbolischen, logarithmischen, sinusförmigen usw.) idealen Korrelation aus, von der die Punkte in der Wolke aufgrund eines "Fehlers" abweichen. Jetzt sind alle idealen Formen, die ich gesehen habe, von realen Daten abstrahiert, wo sie fortlaufend (ohne Unterbrechungen) sind und immer entlang mindestens einer Achse zunehmen (das heißt, nicht zum Beispiel kreisförmig). Meine Datenkenntnisse sind begrenzt, daher habe ich mich gefragt, ob es tatsächlich Daten aus der realen Welt gibt, deren Korrelation nicht kontinuierlich oder zirkulär ist.

Beispielsweise kann es Daten geben, die, wenn ich zeichne, wie zwei Punktwolken aussehen. Wenn ich die Korrelationen für diese Daten blind berechne, kann es sein, dass ich eine finde, während (oder wie mir gesagt wurde) der Plot eindeutig anzeigt, dass ich eine unbekannte Störvariable vermisse, die, wenn ich sie berücksichtige, die falsche Beziehung in meiner auflösen würde Daten. Wenn mein Professor Ihre "x" - oder "y" -förmigen Beispiele betrachtete, würde er mir sagen, dass ich zwei unterschiedliche Teilmengen von Daten verwechselt habe.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.