Bedeutet einfache lineare Regression Kausalität?


17

Ich weiß, dass Korrelation nicht Kausalität bedeutet, sondern Stärke und Richtung der Beziehung. Bedeutet einfache lineare Regression Kausalität? Oder ist dafür ein Inferenztest (t-Test etc.) erforderlich?


3
Was meinst du mit "Richtung"? Haben Sie die Antworten auf ähnliche Fragen unter stats.stackexchange.com/search?q=causal gelesen ? Die kurze Antwort ist nein!
NRH

3
Keiner Ihrer Vorschläge impliziert Kausalität (oder Richtung).
Henry

2
Ich denke, das OP bedeutete "Richtung" im Sinne einer positiven vs. negativen Korrelation, nicht die Richtung irgendeines Kausalzusammenhangs zwischen X und Y.
JMS

Antworten:


19

Die schnelle Antwort lautet: Nein. Sie können leicht nicht verwandte Daten finden, die bei einer Regression alle Arten von statistischen Tests bestehen. Unten sehen Sie ein altes Bild aus Wikipedia (das aus irgendeinem Grund kürzlich entfernt wurde), das zur Veranschaulichung der datengetriebenen "Kausalität" verwendet wurde.

Wir brauchen mehr Piraten, um den Planeten abzukühlen?

Bildbeschreibung hier eingeben

Für Zeitreihen gibt es einen Begriff namens "Granger-Kausalität", der eine ganz bestimmte Bedeutung hat.

http://en.wikipedia.org/wiki/Granger_causality

Ansonsten liegt "Kausalität" im Auge des Betrachters.


Ich meinte positive Korrelation oder negative Richtung. Vielen Dank für Ihre Antwort und den Link zu ähnlichen Fragen.
user4572

1
Das ist eine ziemlich verrückte X-Achse in diesem Bild! (Aber gutes Beispiel!)
Andy W

2
Ein weiterer ..... Käse, Butter und Schafe in Bangladesch im Vergleich zum S & P500 (R ^ 2 = 0,99) ...... nerdsonwallstreet.typepad.com/my_weblog/files/… ....
bill_080

5
Diese Grafik ist offensichtlich veraltet. Entweder das, oder es gibt eine Voreingenommenheit aufgrund des Mangels an Vermessungsingenieuren im Golf von Aden
Kardinal

2
Diese Daten waren, bevor Al Gore ein Pirat wurde.
bill_080

10

In der Mathematik der Regression gibt es nichts Explizites, das kausale Beziehungen angibt, und daher muss man weder die Steigung (Stärke und Richtung) noch die p-Werte (dh die Wahrscheinlichkeit, dass eine so starke oder stärkere Beziehung beobachtet worden wäre, wenn das beobachtet worden wäre) explizit interpretieren Beziehung war in der Bevölkerung Null) in kausaler Weise.

Abgesehen davon würde ich sagen, dass Regression eine viel stärkere Konnotation dafür hat, dass man eine explizite Richtungsbeziehung schätzt als die Korrelation zwischen zwei Variablen. Unter der Annahme, dass Sie mit Korrelation Pearson's r meinen , hat es normalerweise keine explizite kausale Interpretation, da die Metrik symmetrisch ist (dh Sie können umschalten, welche Variable X und welche Y ist und Sie werden immer noch dasselbe Maß haben). Auch der umgangssprachliche Ausdruck "Korrelation impliziert keine Kausalität" ist meines Erachtens so gut bekannt, dass die Angabe zweier Variablen korreliert, wenn man davon ausgeht, dass eine keine kausale Aussage macht.

Die geschätzten Effekte in der Regressionsanalyse sind jedoch nicht symmetrisch. Wenn Sie also auswählen, welche Variable auf der rechten Seite und welche auf der linken Seite liegt, wird eine implizite Aussage getroffen, die sich von der der Korrelation unterscheidet. Ich vermute, man möchte in den allermeisten Fällen, in denen Regression angewendet wird, eine kausale Aussage treffen (Schlußfolgerung oder Vorhersage beiseite). Selbst in Fällen, in denen Korrelationen lediglich angegeben werden, habe ich den Verdacht, dass Menschen häufig implizite Ziele der kausalen Folgerung im Auge haben. Wenn bestimmte Bedingungen erfüllt sind, kann Korrelation eine Kausalität bedeuten !


6

Weder Korrelation noch Regression können auf eine Kausalität hinweisen (wie in der Antwort von @ bill_080 dargestellt), aber wie @Andy W angibt, basiert die Regression häufig auf einer explizit festgelegten (dh unabhängigen) Variablen und einer explizit (dh zufällig) abhängigen Variablen. Diese Bezeichnungen sind für die Korrelationsanalyse nicht geeignet.

Um Sokal und Rohlf zu zitieren, 1969, p. 496

"In der Regression wollen wir die Abhängigkeit einer Variablen Y von einer unabhängigen Variablen X beschreiben ... um Hypothesen über die mögliche Ursache von Änderungen in Y durch Änderungen in X zu unterstützen ..."

"Im Gegensatz dazu sind wir in der Korrelation stark besorgt darüber, ob zwei Variablen voneinander abhängig oder kovär sind - das heißt, sie variieren zusammen. Wir drücken nicht eine als Funktion der anderen aus."

Sokal, RR und FJ Rohlf, 1969. Biometrie. Freeman und Co.


4

Aus semantischer Sicht besteht ein alternatives Ziel darin, Beweise für ein gutes Vorhersagemodell zu erstellen, anstatt die Kausalität zu beweisen. Ein einfaches Verfahren zum Erstellen von Beweisen für den Vorhersagewert eines Regressionsmodells besteht darin, Ihre Daten in zwei Teile zu unterteilen und Ihre Regression mit einem Teil der Daten und mit dem anderen Teil des Datentests darauf abzustimmen, wie gut sie vorhergesagt werden.

Der Begriff der Granger-Kausalität ist interessant.


2

β^=CÖv(x,y)Veinr(x)
α^=y¯-β^x¯,

wobei Var (.) und Cov (.) Schätzwerte aus Stichprobe (Daten) sind.

Folglich sind diese Parameter selbst nichts anderes als einige Korrelationsfunktionen zwischen x und y. Insbesondere ist Beta nur ein "normalisierter" Korrelationskoeffizient. Es gibt also nicht mehr implizite Kausalität in der Regression als in der Korrelation. Kausale Regression ist eine spezielle Technik in der Ökonometrie, bei der man sich beispielsweise auf instrumentelle Variablen stützen müsste, um Phänomene wie Verwechslungen zu umgehen, die die kausale Interpretation eines bestimmten Regressionsmodells verdecken.

Mein Punkt ist: Regression werden kann gemacht kausale aber es ist nicht kausal y Standard.

Weitere Informationen finden Sie in den folgenden Videos: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

Das "Rubin-Modell" von Rubin selbst: http://www.stat.columbia.edu/~cook/qr33.pdf

Toller Einführungskurs in die Kausalität (allerdings noch keine Regression): https://www.coursera.org/learn/crash-course-in-causality


Gute Argumente. Willkommen zum Lebenslauf.
Neil G

0

Mein Verständnis (ich bin ein Kausalitätsanfänger) ist folgendes:

E(ϵ|X)=0


2
E(ϵ|X)=0

Hier finden Sie eine ausführliche Diskussion unter stackexchange.com/questions/59588/… , in der einige wichtige Punkte angesprochen wurden.
mlstudent

E(ϵ|X)=0

y=α+βx+ϵyxyx

Ein einfaches Gegenbeispiel. Wenn Sie Daten generierenY.N(μY.,σY.)X|Y.N(ein+bY.,σX)E(ϵ|X)=0

-6

Regression NIMMT einen Kausalzusammenhang an ... Wenn es keine Grundlage für die Kausalität aufgrund einer physischen / intellektuellen / wissenschaftlichen Analyse des Problems gibt, gibt es keine Grundlage für eine Kausalanalyse und keine Grundlage für eine Regression. Aus diesem Grund erklären die FDA und ähnliche Regierungsbehörden immer wieder: "Das verursacht das!" nur um es später Jahre und Milliarden von Dollar Schaden zurückzuziehen. Beispiele sind Legion: Kaffee, Schokolade, Koffein, Speck, Eier, etc ....

Noch schlimmer ist es, wenn zwei Variablen eine Rückkopplungsschleife haben. Man kann den anderen an einem Punkt verursachen; nur damit der andere den einen später veranlasst. Das passiert immer auf meinem Gebiet, in der Wirtschaft: Aus diesem Grund ist die meiste Wirtschaftsanalyse das Papier, auf dem sie gedruckt wurde, nicht wert.


6
Das ist völlig falsch. Die Regression findet nur eine Beziehung zwischen zwei Zahlenmengen. Ob diese Beziehung aufgrund eines direkten Kausalzusammenhangs besteht oder nicht, ist eine völlig andere Frage.
gung - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.