Beziehungen zwischen Korrelation und Kausalität


19

Aus der Wikipedia-Seite mit dem Titel Korrelation impliziert nicht Kausalität ,

Für zwei beliebige korrelierte Ereignisse, A und B, umfassen die verschiedenen möglichen Beziehungen:

  1. A verursacht B (direkte Ursache);
  2. B verursacht A (umgekehrte Ursache);
  3. A und B sind Konsequenzen einer gemeinsamen Ursache, verursachen sich aber nicht gegenseitig;
  4. A und B verursachen beide C, was (explizit oder implizit) abhängig ist von .;
  5. A verursacht B und B verursacht A (bidirektionale oder zyklische Verursachung);
  6. A verursacht C, was B verursacht (indirekte Verursachung);
  7. Es gibt keine Verbindung zwischen A und B; Die Korrelation ist ein Zufall.

Was bedeutet der vierte Punkt? A und B verursachen beide C, wovon (explizit oder implizit) abhängig ist. Wenn A und B C verursachen, warum müssen A und B korreliert werden?


8
Obligatorische verwandte xkcd: xkcd.com/552
Todd Wilcox

2
Trotz des Sprichworts würde ich erwarten, dass es eine hohe Korrelation zwischen Korrelation und Kausalität gibt ...
Mehrdad,


Siehe möglicherweise auch die Diskussion unter Bedeutet keine Korrelation keine Kausalität?
Ctwardy

Antworten:


18

"Konditionierung" ist ein Wort aus der Wahrscheinlichkeitstheorie: https://en.wikipedia.org/wiki/Conditional_probability

Die Konditionierung auf C bedeutet, dass wir nur Fälle betrachten, in denen C wahr ist. "Implizit" bedeutet, dass wir diese Einschränkung möglicherweise nicht explizit angeben und uns manchmal sogar dessen nicht bewusst sind.

Der Punkt bedeutet, dass, wenn A und B beide C verursachen, die Beobachtung einer Korrelation zwischen A und B in Fällen, in denen C wahr ist, nicht bedeutet, dass es eine reale Beziehung zwischen A und B gibt schafft eine künstliche Korrelation.

Nehmen wir ein Beispiel.

In einem Land gibt es genau zwei Arten von Krankheiten, die vollkommen unabhängig sind. Anruf A: "Person hat erste Krankheit", B: "Person hat zweite Krankheit". Angenommen, , PP(A)=0.1 .P(B)=0.1

Jetzt geht jede Person, die eine dieser Krankheiten hat, zum Arzt und erst dann. Anruf C: "Person geht zum Arzt". Wir haben .C=A or B

Nun berechnen wir einige Wahrscheinlichkeiten:

  • P(C)=0.19
  • P(A|C)=P(B|C)=0.10.190.53
  • P(A and B|C)=0.010.190.053
  • P(A|C)P(B|C)0.28

Offensichtlich sind und B , wenn sie auf C konditioniert sind, weit davon entfernt, unabhängig zu sein. Eigentlich Anlage auf C, n o t A scheint "Ursache" B .ABnotAB

Wenn Sie die Liste der Personen verwenden, die von ihren Ärzten als Datenquelle für eine Analyse erfasst wurden, scheint eine starke Korrelation zwischen den Krankheiten und B zu bestehenAB . Möglicherweise wissen Sie nicht, dass es sich bei Ihrer Datenquelle tatsächlich um eine Konditionierung handelt. Dies wird auch als "Auswahlverzerrung" bezeichnet.


13

Der vierte Punkt ist ein Beispiel für Berksons Paradoxon , das auch als Konditionierung auf einem Collider bekannt ist und auch als " Explain-Away" -Phänomen bezeichnet wird .

Stellen Sie sich beispielsweise eine junge Frau vor, die häufig von jungen Männern zu Terminen befragt wird, und sie muss entscheiden, ob sie jeden Terminvorschlag annimmt oder ablehnt. Die jungen Männer unterscheiden sich darin, wie attraktiv und charmant sie sind, und nehmen wir an, dass diese beiden Merkmale in der Population der datumsvorschlagenden Männer unabhängig sind. Natürlich ist die junge Frau eher geneigt, einen Terminvorschlag anzunehmen, je attraktiver oder charmanter der Mann ist. So ein Kausalmodell für diese Situation aussehen kann:

AttractiveAcceptCharming
AttractiveCharmingAccept

AttractiveCharmingAccept=1. Now suppose I tell you about a man who the woman agreed to date, and I tell you that he is (in the woman's opinion) not attractive at all. Well, we know that the woman agreed to date him anyway, so we would reasonably infer that he must be quite charming indeed. Conversely, if we learn about a man whose date proposal was accepted and who is not charming, we would reasonably infer that he must be quite attractive.

Do you see what's happened here? By conditioning on Accept=1, we've induced a negative correlation between Attractive and Charming, even though these two traits are (by assumption) marginally independent. From the perspective of the woman, the attractive men she dates tend to be less charming, and the charming men she dates tend to be less attractive. But this is because, by thinking only of the men she has dated, she is implicitly conditioning on Accept. If she would instead consider all the men who have proposed dates, regardless of whether she accepted the proposal, she would see that there is no statistical association between the two traits.


5

Simpson's paradox and Berkson's paradox can each give examples of "A and B both cause C, which is (explicitly or implicitly) conditioned on"

As an example suppose I have 1000 stamps in my collection of which 100 are rare (10%) and 200 are pretty (20%). If there is no intrinsic relationship between rarity and prettiness, it might turn out 20 of my stamps are both pretty and rare.

If I now display my 280 interesting stamps, i.e. those which are rare or pretty or both, there will be an apparent negative correlation between rarity and prettiness (20% of displayed rare stamps are pretty while 100% of displayed common stamps are pretty) due entirely to conditioning on being interesting.


This is an example Berkson's paradox, not Simpson's paradox (see my answer).
Jake Westfall

@JakeWestfall You are probably right - I knew I had written the stamps example before somewhere but forgotten where and it turns out to be the Wikipedia page for Berkson's paradox
Henry

4

The paragraph starts with "For any two correlated events, A and B,...", so my guess is that correlation is assumed at the beginning. In other words, they need not be correlated to simultaneously cause C, but if they were correlated and they did both cause C, it does not imply that there exists a causal relationship between them.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.