Unter welchen Bedingungen impliziert Korrelation Kausalität?

85

Wir alle wissen, dass das Mantra "Korrelation bedeutet keine Kausalität" in allen Statistikstudenten des ersten Studienjahres enthalten ist. Es gibt einige schöne Beispiele hier die Idee zu illustrieren.

Aber manchmal Korrelation tut Verursachung bedeuten. Das folgende Beispiel stammt von dieser Wikipedia-Seite

Zum Beispiel könnte man ein Experiment mit identischen Zwillingen durchführen, von denen bekannt ist, dass sie bei ihren Tests stets die gleichen Noten erhalten. Ein Zwilling wird für sechs Stunden zum Lernen geschickt, während der andere in den Vergnügungspark geschickt wird. Wenn ihre Testergebnisse plötzlich stark divergierten, wäre dies ein starker Beweis dafür, dass das Studieren (oder der Besuch des Vergnügungsparks) einen kausalen Effekt auf die Testergebnisse hatte. In diesem Fall würde die Korrelation zwischen Studien- und Testergebnissen mit ziemlicher Sicherheit eine Kausalität bedeuten.

Gibt es andere Situationen, in denen Korrelation Kausalität impliziert?

correlation causality

— Rob Hyndman
quelle

16

Korrelation und ein starker zugrunde liegender Grund für eine Verknüpfung legen nahe, dass die Ursache, bis das Gegenteil bewiesen ist, wahrscheinlich die beste ist, die Sie erhalten können.

— James

8

Ist es nicht Karl Popper, der sagte, der Mensch könne keine Kausalität feststellen: Wissenschaftliche Theorien sind abstrakter Natur. Sie können fälschbar sein und die Tatsache, dass wir Schwierigkeiten haben, etwas zu fälschen, lässt uns über Kausalität nachdenken ...

— robin girard

3

Interessantes Gegenbeispiel von Jaynes: Wir haben die deduktive Beziehung "keine Wolken" impliziert "kein Regen"; Doch wer würde glauben, dass "keine Wolken" die physische Ursache für "keinen Regen" ist?

— Wahrscheinlichkeitsrechnung

4

Verwenden wir einen anderen Begriff als "implizieren", da die Bedeutungen im Wörterbuch sowohl 1. Suggest als auch 2. Necessitate (!)

— rolando2

Hat dieses Beispiel überhaupt Sinn? Ich meine, die implizierte Kausalität ist, dass die Unterschiede zwischen den Lernmethoden / -regimen Unterschiede in den Testergebnissen der Zwillinge verursachen. Aber es ist eine Stichprobe von einer, und selbst bei einer großen Stichprobe ist nur eine Gruppe von Zwillingen erforderlich, um die entgegengesetzte Reaktion zu erzielen, um die Hypothese, den schwarzen Schwan, zu brechen Bedeutung? Wenn ja, dann verstehe ich nicht, warum der zweite Teil nicht glaubwürdig ist.

— Naught101

33

Die Korrelation reicht für die Verursachung nicht aus. Man kann das Wikipedia-Beispiel umgehen, indem man sich vorstellt, dass diese Zwillinge in ihren Tests immer betrogen haben, indem sie ein Gerät haben, das ihnen die Antworten gibt. Der Zwilling, der in den Vergnügungspark geht, verliert das Gerät, daher der niedrige Grad.

Ein guter Weg, um dies zu verdeutlichen, besteht darin, sich die Struktur des Bayes'schen Netzwerks vorzustellen, das die gemessenen Größen erzeugen kann, wie dies Pearl in seinem Buch Causality getan hat . Sein grundlegender Punkt ist es, nach versteckten Variablen zu suchen. Wenn es eine versteckte Variable gibt, die in der gemessenen Stichprobe nicht variiert, würde die Korrelation keine Ursache implizieren. Enthülle alle versteckten Variablen und du hast eine Kausalität.

— Hbar
quelle

Ich habe einige Probleme zu verstehen, warum Pfeilrichtungen in einem entsprechenden Bayes'schen Netzwerk in irgendeinem Zusammenhang mit der Kausalität stehen. Zum Beispiel repräsentieren A-> B und B-> A unterschiedliche Richtungen für die Kausalität, aber Bayes'sche Netzwerke für diese beiden Strukturen sind äquivalent

— Jaroslaw Bulatow

6

Gegenüber Interventionen sind sie nicht gleichwertig.

— Neil G

Diese Bayes'schen Netze sind in gewissem Sinne gleichwertig. Wenn man die von einem von ihnen gesammelten Daten betrachtet, kann man nicht sagen, um welches es sich handelt

— Jaroslaw Bulatow

4

Ähm ... Ich kenne echte Statistiken noch lange nicht ... aber ist es nicht per definitionem unmöglich, "alle versteckten Variablen freizulegen"? Woher weißt du, wenn es keine "versteckten" Variablen mehr gibt?

— Craig Walker

4

@ Craig Das ist der Punkt; es ist nicht möglich.

— Justin L.

35

Ich füge nur einige zusätzliche Kommentare zur Kausalität aus epidemiologischer Sicht hinzu . Die meisten dieser Argumente stammen aus der praktischen psychiatrischen Epidemiologie von Prince et al. (2003).

Kausalität oder Kausalitätsinterpretation sind bei weitem die schwierigsten Aspekte der epidemiologischen Forschung. Kohorten- und Querschnittsstudien könnten beispielsweise zu störenden Effekten führen. Unter Berufung auf S. Menard ( Longitudinal Research , Sage University Paper 76, 1991) schlug HB Asher in Causal Modeling (Sage, 1976) zunächst folgende Kriterien vor:

Die fraglichen Phänomene oder Variablen müssen kovarian sein, wie zum Beispiel durch Unterschiede zwischen experimentellen und Kontrollgruppen oder durch eine Korrelation ungleich Null zwischen den beiden Variablen angezeigt.
Die Beziehung darf keiner anderen Variablen oder Variablenmenge zugeordnet werden, dh sie darf nicht falsch sein, sondern muss auch dann bestehen bleiben, wenn andere Variablen gesteuert werden, wie dies beispielsweise durch eine erfolgreiche Randomisierung in einem experimentellen Design angezeigt wird (kein Unterschied zwischen experimentellem und experimentellem Design) Kontrollgruppen vor der Behandlung) oder durch eine von Null verschiedene partielle Korrelation zwischen zwei Variablen mit einer anderen Variablen, die konstant gehalten wird.
Die vermutete Ursache muss der vermuteten Wirkung rechtzeitig vorausgehen oder zeitgleich sein, wie sich aus der Änderung der Ursache ergibt, die spätestens mit der damit verbundenen Änderung der Wirkung einhergeht.

Während die ersten beiden Kriterien leicht anhand einer Querschnitts- oder zeitlich geordneten Querschnittsstudie überprüft werden können, kann letztere nur anhand von Längsschnittdaten bewertet werden, mit Ausnahme von biologischen oder genetischen Merkmalen, für die eine zeitliche Ordnung ohne Längsschnittdaten angenommen werden kann. Natürlich wird die Situation im Falle eines nicht-rekursiven Kausalzusammenhangs komplexer.

Ich mag auch die folgende Abbildung (Kapitel 13 in der oben genannten Literaturstelle), die den von Hill (1965) verkündeten Ansatz zusammenfasst, der 9 verschiedene Kriterien in Bezug auf den Kausaleffekt enthält, wie auch von @James zitiert. Der ursprüngliche Artikel hatte in der Tat den Titel "Die Umwelt und Krankheit: Assoziation oder Ursache?" ( PDF-Version ).

Hill1965

Schließlich bietet Kapitel 2 von Rothmans berühmtestem Buch Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2. Auflage) eine umfassende Diskussion über Kausalität und Kausalzusammenfassung, sowohl aus statistischer als auch aus philosophischer Sicht.

Sehr interessant sind auch die folgenden Referenzen (grob genommen aus einem Online-Kurs in Epidemiologie):

Swaen, G und van Amelsvoort, L (2009). Ein Beweiskraftansatz zur kausalen Folgerung . Journal of Clinical Epidemiology , 62 , 270 & ndash; 277.
Botti, C, Comba, P, Forastiere, F und Settimi, L (1996). Kausaler Rückschluss in der Umweltepidemiologie. die Rolle der impliziten Werte . The Science of the Total Environment , 184 , 97-101.
Weed, DL (2002). Umweltepidemiologie. Grundlagen und Nachweis der Ursache Wirkung . Toxikologie , 181-182 , 399-403.
Franco, EL, Correa, P., Santella, RM, Wu, X, Goodman, SN und Petersen, GM (2004). Rolle und Grenzen der Epidemiologie bei der Begründung eines Kausalzusammenhangs . Seminare in Cancer Biology , 14 , 413–426.

Schließlich bietet dieser Aufsatz eine umfassendere Perspektive für die kausale Modellierung und die kausale Inferenz in der Statistik: Ein Überblick (J Pearl, SS 2009 (3)).

— chl
quelle

18

Im Zentrum Ihrer Frage steht die Frage "Wann ist eine Beziehung kausal?" Es muss nicht nur eine Korrelation sein, die eine Kausalität impliziert (oder nicht).

Ein gutes Buch zu diesem Thema heißt Mostly Harmless Econometrics von Johua Angrist und Jorn-Steffen Pischke. Sie gehen von dem experimentellen Ideal aus, bei dem wir die untersuchte "Behandlung" auf irgendeine Weise randomisieren können, und gehen dann zu alternativen Methoden zur Erzeugung dieser Randomisierung über, um kausale Einflüsse zu ziehen. Dies beginnt mit dem Studium sogenannter natürlicher Experimente.

Eines der ersten Beispiele für ein natürliches Experiment, das zur Identifizierung von Kausalzusammenhängen herangezogen wird, ist Angrists Arbeit von 1989 über "Lebenslange Einnahmen und die Vietnam-Ära als Lotterieentwurf". In diesem Artikel wird versucht, die Auswirkung des Militärdienstes auf das Einkommen auf Lebenszeit abzuschätzen. Ein Hauptproblem bei der Schätzung von Kausaleffekten besteht darin, dass bestimmte Arten von Personen möglicherweise eher dazu neigen, sich zu engagieren, was die Messung der Beziehung beeinträchtigen kann. Angrist verwendet das natürliche Experiment, das von der Vietnam-Draft-Lotterie entwickelt wurde, um die Behandlung "Militärdienst" einer Gruppe von Männern effektiv "zufällig" zuzuweisen.

Wann haben wir also eine Kausalität? Unter Versuchsbedingungen. Wann kommen wir näher? Unter natürlichen Experimenten. Es gibt auch andere Techniken, die uns der "Kausalität" nahe bringen, dh sie sind viel besser als die bloße statistische Kontrolle. Dazu gehören Regressionsdiskontinuität, Differenzenunterschiede usw.

— Graham Cookson
quelle

15

Es gibt auch ein Problem mit dem umgekehrten Fall, wenn mangelnde Korrelation als Beweis für die mangelnde Verursachung herangezogen wird. Dieses Problem ist Nichtlinearität; Wenn man sich die Korrelation ansieht, prüft man normalerweise Pearson, das ist nur die Spitze eines Eisbergs.

14

Ihr Beispiel ist das eines kontrollierten Experiments . Der einzige andere Kontext, von dem ich weiß, wo eine Korrelation eine Kausalität implizieren kann, ist der eines natürlichen Experiments .

Grundsätzlich nutzt ein natürliches Experiment die Zuweisung einiger Befragter zu einer Behandlung, die in der realen Welt auf natürliche Weise erfolgt. Da die Zuordnung der Befragten zu den Behandlungs- und Kontrollgruppen nicht vom Experimentator kontrolliert wird, ist das Ausmaß, in dem eine Korrelation eine Verursachung implizieren würde, möglicherweise etwas schwächer.

Weitere Informationen zu kontrollierten / natürlichen Experimenten finden Sie unter den Wiki-Links.

12

Meiner Meinung nach hat die APA Statistical Task Force dies ziemlich gut zusammengefasst

Die Schlussfolgerung der Kausalität aus nicht randomisierten Designs ist ein riskantes Unterfangen. Forscher, die nicht-randomisierte Designs verwenden, sind zusätzlich verpflichtet, die Logik der in ihren Designs enthaltenen Kovariaten zu erläutern und den Leser auf plausible rivalisierende Hypothesen aufmerksam zu machen, die ihre Ergebnisse erklären könnten. Selbst in randomisierten Experimenten ist die Unterstützung durch zusätzliche Experimente erforderlich, um einem Aspekt des Behandlungszustands kausale Effekte zuzuschreiben. '' - APA Task Force

— Jeromy Anglim
quelle

11

In der Ansprache des Präsidenten von Sir Austin Bradford Hill an die Royal Society of Medicine ( Umwelt und Krankheit: Zusammenhang oder Ursache? ) Werden neun Kriterien erläutert, anhand derer beurteilt werden kann, ob zwischen zwei korrelierten oder assoziierten Variablen ein Kausalzusammenhang besteht.

Sie sind:

Stärke des Vereins
Beständigkeit: "Wurde sie wiederholt von verschiedenen Personen an verschiedenen Orten, unter verschiedenen Umständen und zu verschiedenen Zeiten beobachtet?"
Spezifität
Zeitlichkeit: "Welches ist der Karren und welches ist das Pferd?" - Die Ursache muss der Wirkung vorausgehen
Biologischer Gradient (Dosis-Wirkungs-Kurve) - Inwiefern hängt die Stärke des Effekts von der Stärke der (vermuteten) kausalen Variablen ab?
Plausibilität - gibt es eine wahrscheinliche Erklärung für die Ursache?
Kohärenz - würde die Kausalität anderen Fakten widersprechen?
Experiment - Beeinflusst eine experimentelle Manipulation der (vermuteten) kausalen Variablen die (vermutete) abhängige Variable?
Analogie - sind wir in der Vergangenheit auf ähnliche kausale Zusammenhänge gestoßen?

— James Scott-Brown
quelle

9

Im Beispiel der Zwillinge deutet nicht nur die Korrelation auf eine Kausalität hin, sondern auch die damit verbundenen Informationen oder Vorkenntnisse.

Angenommen, ich füge eine weitere Information hinzu. Angenommen, der fleißige Zwilling hat 6 Stunden für eine Statistikprüfung studiert, aber aufgrund eines unglücklichen Fehlers war die Prüfung in der Geschichte. Würden wir trotzdem zu dem Schluss kommen, dass die Studie die Ursache für die überlegene Leistung war?

Die Bestimmung der Kausalität ist ebenso eine philosophische wie eine wissenschaftliche Frage, daher die Tendenz, bei der Diskussion der Kausalität Philosophen wie David Hume und Karl Popper heranzuziehen.

Es ist nicht überraschend, dass die Medizin einen wesentlichen Beitrag zur Feststellung der Kausalität durch Heuristiken geleistet hat, wie beispielsweise Kochs Postulate zur Feststellung des Kausalzusammenhangs zwischen Mikroben und Krankheit. Diese wurden auf "molekulare Koch-Postulate" erweitert, die zeigen sollen, dass ein Gen in einem Pathogen ein Produkt codiert, das zu der durch den Pathogen verursachten Krankheit beiträgt.

Leider kann ich keine angeblichen Hyperlinks posten, weil ich ein neuer Benutzer bin (nicht wahr) und nicht genug "Reputationspunkte" habe. Der wahre Grund ist jedermanns Vermutung.

— Thylacoleo
quelle

9

Korrelation allein impliziert niemals Kausalität. So einfach ist das.

Es ist jedoch sehr selten, dass nur eine Korrelation zwischen zwei Variablen besteht. Oft wissen Sie auch etwas über diese Variablen und eine Theorie oder Theorien, was darauf hindeutet, warum es möglicherweise einen Kausalzusammenhang zwischen den Variablen gibt. Wenn nicht, suchen wir nach einer Korrelation? (Allerdings gibt es bei Menschen, die massive Korrelationsmatrizen für signifikante Ergebnisse abrufen, oft keine zufällige Theorie - ansonsten, warum sollte man sich mit dem Abrufen befassen. Als Gegenargument dafür ist oft eine gewisse Erforschung erforderlich, um Ideen für zufällige Theorien zu erhalten. Und so weiter und so fort ...)

Eine Antwort auf die allgemeine Kritik "Ja, aber das ist nur eine Korrelation: Es impliziert keine Kausalität":

Für eine ungezwungene Beziehung ist eine Korrelation erforderlich. Ein wiederholtes Versagen, eine Korrelation zu finden, wäre in der Tat eine schlechte Nachricht.
Ich habe dir nicht nur eine Korrelation gegeben.
Erklären Sie dann mögliche Kausalmechanismen, die den Zusammenhang erklären ...

— AndyF
quelle

2

Ein Gegenbeispiel zu Ihrer Nummer 1: In einem chaotischen System könnten Sie eine Ursache haben, die nicht offensichtlich korreliert.

— mkt

8

Eine nützliche hinreichende Bedingung für einige Definitionen der Kausalität:

Eine Ursache kann geltend gemacht werden, wenn eine der korrelierten Variablen gesteuert werden kann (wir können ihren Wert direkt einstellen) und die Korrelation noch vorhanden ist.

— Łukasz Lew
quelle

2

Verwenden Sie auch das Wort von Pearl, um den Wert [einer Variablen] direkt festzulegen: eine Intervention.

— Neil G

8

Fast immer in randomisierten Studien
Fast immer in Beobachtungsstudien, wenn jemand alle Confouder misst (fast nie)
Manchmal, wenn jemand einige Counfounder misst (IC * -Algorithmus der DAG-Entdeckung in Pearl's Buch Causality)
In nicht-gaußschen linearen Modellen mit zwei oder mehr Variablen, die jedoch keine Korrelation als Maß für die Beziehung verwenden ( LiNGAM )

Die meisten Erkennungsalgorithmen sind in Tetrad IV implementiert

— Wojtek
quelle

6

Eine verwandte Frage könnte sein: Unter welchen Bedingungen können Sie zuverlässig Kausalzusammenhänge aus Daten extrahieren?

Ein NIPS- Workshop 2008 versucht, diese Frage empirisch zu beantworten. Eine der Aufgaben bestand darin, die Richtung der Kausalität aus Beobachtungen von Variablenpaaren abzuleiten, bei denen bekannt war, dass eine Variable eine andere verursacht, und die beste Methode war in der Lage, 80% der Zeit die Kausalrichtung korrekt zu extrahieren.

— Jaroslaw Bulatow
quelle

3

Mit ziemlicher Sicherheit in einem gut durchdachten Experiment. (Entwarf natürlich, eine solche Verbindung hervorzurufen .)

— ars
quelle

3

Nehmen wir an, der Faktor A ist die Ursache für das Phänomen B. Dann versuchen wir, ihn zu variieren, um festzustellen, ob sich B ändert. Wenn sich B nicht ändert und wir davon ausgehen können, dass sich ansonsten nichts ändert, deutlicher Beweis, dass A nicht die Ursache von B ist eine Änderung der tatsächlichen Ursache C, die B änderte.

Können Sie variieren A machen?

— RockScience

2

Mir ist aufgefallen, dass hier bei der Erörterung des empirischen Paradigmas Beweise verwendet wurden. Es gibt keine solche Sache. Zuerst kommt die Hypothese, in der die Idee vorgebracht wird; Dann folgt das Testen unter "kontrollierten Bedingungen" [Anmerkung a], und wenn ein "ausreichender" Mangel an Disproof festgestellt wird, rückt es zum Stadium der Hypothese vor...Zeitraum. Es gibt keinen Beweis, es sei denn, man kann 1) es schaffen, bei jedem Auftreten dieses Ereignisses zu sein [Anmerkung b] und natürlich 2) die Ursache festzustellen. 1) ist in einem unendlichen Universum unwahrscheinlich [man beachte, dass die Unendlichkeit von Natur aus nicht bewiesen werden kann]. Kein Tee; Kein Experiment wird unter vollständig kontrollierten Bedingungen durchgeführt, und je kontrollierter die Bedingungen sind, desto geringer ist die Ähnlichkeit mit dem äußeren Universum mit scheinbar unendlichen Kausalinien. Anmerkung b; wohlgemerkt, du musst das 'ereignis' perfekt beschrieben haben, was vermutlich eine perfekt korrekte sprache bedeutet = vermutlich keine menschliche sprache. Zum Schluss geht vermutlich jede Kausalität auf das erste Ereignis zurück. Sprechen Sie jetzt mit allen mit einer Theorie. Ja, ich habe formal und informell studiert. Am Ende; nein, nähe bedeutet weder kausalität noch etwas anderes als temporäre korrelation.

— Glenn Charles
quelle

1

$X$ $Y$

$Y = bX + u$

Dann $b$ $X$ $Y$ $\mathrm{E}(b)=B$ $X$ $u$ $\mathrm{E}(u|X)=0$ $u$ $Y$ $X$ $Y$

Unparteilichkeit ist eine wünschenswerte Eigenschaft eines Schätzers, aber Sie möchten auch, dass Ihr Schätzer effizient (geringe Varianz) und konsistent (tendenziell wahrscheinlicher Wert) ist. Siehe Gauß-Markov-Annahmen.

— user172578
quelle