Wenn zwei Merkmale eine bekannte Korrelation aufweisen, können Sie dann die Wahrscheinlichkeit vorhersagen, dass sie sich für ein zufälliges Paar „ausrichten“?

7

Angenommen, Sie haben zwei Merkmale, die in einer bestimmten Population korrelieren, wie den BMI einer Person und ihren Blutdruck. Angenommen, ich möchte die Wahrscheinlichkeit abschätzen, dass bei einem zufällig ausgewählten Personenpaar aus dieser Population derjenige mit dem höheren BMI auch einen höheren Blutdruck aufweist. Wenn ich den Pearson-Korrelationskoeffizienten kenner (oder äquivalent r ^ 2, der Anteil der Varianz des Blutdrucks, der durch den BMI erklärt wird), kann dies verwendet werden, um diese Wahrscheinlichkeit zu erhalten? Wenn nicht, könnte ich dies mit einem anderen Korrelationsmaß tun oder indem ich eine vereinfachende Annahme über die funktionelle Beziehung zwischen ihnen mache (z. B. die Annahme, dass der Blutdruck bei jedem Individuum eine lineare Funktion des BMI ist, zusammen mit mehreren anderen unabhängigen Variablen) und / oder die individuelle Verteilung jedes Einzelnen (vorausgesetzt, sowohl der BMI als auch der Blutdruck sind normal verteilt)?

correlation r-squared

— Hypnosifl
quelle

Wenn Sie daran interessiert sind, können Sie dies einfach direkt aus den Daten abschätzen, indem Sie beispielsweise Kendalls .

τ

$\tau$

— Dsaxton

4

Nein - die Korrelation (und sogar die lineare Regressionsformel) zwischen zwei Merkmalen zu kennen, reicht nicht aus, um die Wahrscheinlichkeit vorherzusagen, dass ein höherer BMI einen höheren Blutdruck haben wird.

In Anscombes Quartett finden Sie ein visuelles Beispiel für vier unterschiedliche Verteilungen mit identischen Korrelationen und angepassten linearen Regressionslinien, um zu sehen, wohin Wahrscheinlichkeitsvorhersagen auf der Grundlage der Korrelation Sie in die Irre führen können.

Wenn Sie vereinfachende Annahmen treffen: dh eine lineare Beziehung zwischen BMI und Blutdruck und Normalverteilungen, dann können Sie Vorhersageintervalle für neue Messungen unter Verwendung der Gleichung der kleinsten Quadrate erstellen.

Bei der Arbeit mit realen Daten würde ich jedoch empfehlen, Annahmen über die Datenverteilung zu vermeiden. Eine bessere Alternative wäre die Verwendung von Bootstrapping zur Schätzung der kumulativen Verteilungsfunktion.

— RobertF
quelle

6

Wenn zwei Merkmale eine bekannte Korrelation aufweisen, können Sie dann die Wahrscheinlichkeit vorhersagen, dass sie sich für ein zufälliges Paar „ausrichten“?

Es hängt davon ab, welche Populationskorrelation Sie betrachten.

Für die Pearson-Korrelation erwähnen Sie ( $\rho$ ) lautet die Antwort "nein", zumindest nicht ohne zusätzliche Annahmen. (Die Antwort von RobertF ist richtig)

Wenn Sie stattdessen die Populations- Kendall- Korrelation kennen ( Kendalls Tau , hier bezeichnet $\tau_K$ ) In einer kontinuierlichen bivariaten Verteilung lautet die Antwort dann tatsächlich Ja.

Die Populations-Kendall-Korrelation ist die Differenz zwischen der Wahrscheinlichkeit eines konkordanten Paares und der Wahrscheinlichkeit eines nicht übereinstimmenden Paares:

τ_{K.} = p_{C.} - - p_{D.}

$\tau_K = p_C-p_D$

(Die Stichproben-Kendall-Korrelation ist in ähnlicher Weise der Unterschied in den Stichprobenanteilen von übereinstimmenden und nicht übereinstimmenden Paaren).

Da in kontinuierlichen bivariaten Populationen $p_C+p_D=1$ , wenn du weißt $\tau_K$ Sie können berechnen $p_C$ ::

$\tau_K = p_C-p_D$ $= p_C-(1-p_C)$ $= 2p_C-1$

Daher $p_C = \frac12(\tau_K+1)$ , ein schönes einfaches Ergebnis.

Während $\tau_K$ bestimmt die Wahrscheinlichkeit, nach der Sie fragen (zumindest im kontinuierlichen Fall), die Beziehung zwischen $\rho$ und $\tau_K$ hängt von der Struktur der bivariaten Beziehung zwischen den Variablen (dh der Kopula ) ab.

Wenn Sie von einer bivariaten Normalität ausgehen, können Sie die (nichtlineare) Verbindung zwischen herausfinden $\tau_K$ und $\rho$ . In der Tat ist dies ein bekanntes Ergebnis; wir haben:

τ_{K.} = \frac{2}{π} \arcsin (ρ)

$\tau_K = \frac{2}{\pi}\arcsin(\rho)$

- siehe Abschnitt 5.3.2 von Embrechts et al. (2005) [1], deren Ergebnis auch an verschiedenen Stellen zu finden ist - zum Beispiel in Meyer (2009) [2]. Also in diesem Fall

p_{C.} = \frac{\arcsin (ρ)}{π} + \frac{1}{2} .

$p_C = \frac{\arcsin(\rho)}{\pi}+\frac12\,.$

(Eine Annahme einer bivariaten Normalität erscheint jedoch für den BMI und den Blutdruck zweifelhaft.)

Diese Beziehung zwischen $\tau_K$ und $\rho$ gilt eigentlich für elliptische Verteilungen allgemeiner. Siehe zum Beispiel Lindskog, McNeil & Schmock (2003) [3]. Diese Annahme für BMI und Blutdruck kann jedoch wiederum zweifelhaft sein - beispielsweise sind beide Maßnahmen in der Praxis tendenziell rechtwinklig.

[1] Embrechts, P., Frey, R., McNeil, AJ (2005),
Quantitatives Risikomanagement: Konzepte, Techniken, Werkzeuge ,
Princeton-Reihe in Finance, Princeton University Press

[2] Meyer, C. (2009),
The Bivariate Normal Copula ,
arXiv: 0912.2816v1 [math.PR] pdf (15. Dezember)

[3] Lindskog, F., McNeil, AJ, Schmock, U. (2003),
"Kendalls Tau für elliptische Verteilungen"
in: Kreditrisiko; Messung, Bewertung und Management , hrsg. G. Bol et al.,
Beiträge zur Wirtschaft, Physica-Verlag Heidelberg, S. 149–156.
(oder siehe http://www.macs.hw.ac.uk/~mcneil/ftp/KendallsTau.pdf )

— Glen_b -State Monica
quelle

2

Ich stimme der Antwort von RobertF zu, da sie zuerst kam und die meisten meiner Fragen ansprach, aber ich schätze diese zusätzlichen Informationen. Mein Laie hat den Eindruck, dass die meisten empirischen statistischen Studien, die ich in Bereichen wie Medizin / Psychologie / Soziologie gesehen habe, nur Pearsons r oder r ^ 2 verwenden, um Korrelationen zu beschreiben - wenn das stimmt, frage ich mich, warum Kendalls Maß nicht häufiger angegeben wird Daneben scheint es nützlich zu sein, die Ergebnisse zu interpretieren (insbesondere bei der Zusammenfassung für ein nicht spezialisiertes Publikum, da die Idee, ein zufälliges Paar auszuwählen, intuitiv ist).

— Hypnosifl

In der Tat ist dies eine ausgezeichnete Frage zum Nachdenken - und man könnte durchaus eine ähnliche Frage in Bezug auf eine Reihe anderer nichtparametrischer Größen von ähnlicher Interpretierbarkeit und Einfachheit stellen. [Zumindest die Kendall-Korrelation wird häufig in der Arbeit mit Copulas verwendet, sowohl in der Theorie als auch in der Praxis.]

— Glen_b

0

Ich empfehle, die zu messenden Variablen zu erhöhen. Alter, Geschlecht, Ort usw. gewichten sie in Ihrer Formel, um die Wahrscheinlichkeit falsch negativer Ergebnisse zu verringern. Maximieren Sie Ihre ROC-Kurve. Es wäre interessant, ein Modell zu sehen, das bei verschiedenen Datensätzen über verschiedene Jahrzehnte hinweg die gleiche Korrelation beibehält.

— HotBreakfast
quelle