Ich weiß, dass Korrelation nicht Kausalität bedeutet, sondern Stärke und Richtung der Beziehung. Bedeutet einfache lineare Regression Kausalität? Oder ist dafür ein Inferenztest (t-Test etc.) erforderlich?
Ich weiß, dass Korrelation nicht Kausalität bedeutet, sondern Stärke und Richtung der Beziehung. Bedeutet einfache lineare Regression Kausalität? Oder ist dafür ein Inferenztest (t-Test etc.) erforderlich?
Antworten:
Die schnelle Antwort lautet: Nein. Sie können leicht nicht verwandte Daten finden, die bei einer Regression alle Arten von statistischen Tests bestehen. Unten sehen Sie ein altes Bild aus Wikipedia (das aus irgendeinem Grund kürzlich entfernt wurde), das zur Veranschaulichung der datengetriebenen "Kausalität" verwendet wurde.
Wir brauchen mehr Piraten, um den Planeten abzukühlen?
Für Zeitreihen gibt es einen Begriff namens "Granger-Kausalität", der eine ganz bestimmte Bedeutung hat.
http://en.wikipedia.org/wiki/Granger_causality
Ansonsten liegt "Kausalität" im Auge des Betrachters.
In der Mathematik der Regression gibt es nichts Explizites, das kausale Beziehungen angibt, und daher muss man weder die Steigung (Stärke und Richtung) noch die p-Werte (dh die Wahrscheinlichkeit, dass eine so starke oder stärkere Beziehung beobachtet worden wäre, wenn das beobachtet worden wäre) explizit interpretieren Beziehung war in der Bevölkerung Null) in kausaler Weise.
Abgesehen davon würde ich sagen, dass Regression eine viel stärkere Konnotation dafür hat, dass man eine explizite Richtungsbeziehung schätzt als die Korrelation zwischen zwei Variablen. Unter der Annahme, dass Sie mit Korrelation Pearson's r meinen , hat es normalerweise keine explizite kausale Interpretation, da die Metrik symmetrisch ist (dh Sie können umschalten, welche Variable X und welche Y ist und Sie werden immer noch dasselbe Maß haben). Auch der umgangssprachliche Ausdruck "Korrelation impliziert keine Kausalität" ist meines Erachtens so gut bekannt, dass die Angabe zweier Variablen korreliert, wenn man davon ausgeht, dass eine keine kausale Aussage macht.
Die geschätzten Effekte in der Regressionsanalyse sind jedoch nicht symmetrisch. Wenn Sie also auswählen, welche Variable auf der rechten Seite und welche auf der linken Seite liegt, wird eine implizite Aussage getroffen, die sich von der der Korrelation unterscheidet. Ich vermute, man möchte in den allermeisten Fällen, in denen Regression angewendet wird, eine kausale Aussage treffen (Schlußfolgerung oder Vorhersage beiseite). Selbst in Fällen, in denen Korrelationen lediglich angegeben werden, habe ich den Verdacht, dass Menschen häufig implizite Ziele der kausalen Folgerung im Auge haben. Wenn bestimmte Bedingungen erfüllt sind, kann Korrelation eine Kausalität bedeuten !
Weder Korrelation noch Regression können auf eine Kausalität hinweisen (wie in der Antwort von @ bill_080 dargestellt), aber wie @Andy W angibt, basiert die Regression häufig auf einer explizit festgelegten (dh unabhängigen) Variablen und einer explizit (dh zufällig) abhängigen Variablen. Diese Bezeichnungen sind für die Korrelationsanalyse nicht geeignet.
Um Sokal und Rohlf zu zitieren, 1969, p. 496
"In der Regression wollen wir die Abhängigkeit einer Variablen Y von einer unabhängigen Variablen X beschreiben ... um Hypothesen über die mögliche Ursache von Änderungen in Y durch Änderungen in X zu unterstützen ..."
"Im Gegensatz dazu sind wir in der Korrelation stark besorgt darüber, ob zwei Variablen voneinander abhängig oder kovär sind - das heißt, sie variieren zusammen. Wir drücken nicht eine als Funktion der anderen aus."
Sokal, RR und FJ Rohlf, 1969. Biometrie. Freeman und Co.
Aus semantischer Sicht besteht ein alternatives Ziel darin, Beweise für ein gutes Vorhersagemodell zu erstellen, anstatt die Kausalität zu beweisen. Ein einfaches Verfahren zum Erstellen von Beweisen für den Vorhersagewert eines Regressionsmodells besteht darin, Ihre Daten in zwei Teile zu unterteilen und Ihre Regression mit einem Teil der Daten und mit dem anderen Teil des Datentests darauf abzustimmen, wie gut sie vorhergesagt werden.
Der Begriff der Granger-Kausalität ist interessant.
wobei Var (.) und Cov (.) Schätzwerte aus Stichprobe (Daten) sind.
Folglich sind diese Parameter selbst nichts anderes als einige Korrelationsfunktionen zwischen x und y. Insbesondere ist Beta nur ein "normalisierter" Korrelationskoeffizient. Es gibt also nicht mehr implizite Kausalität in der Regression als in der Korrelation. Kausale Regression ist eine spezielle Technik in der Ökonometrie, bei der man sich beispielsweise auf instrumentelle Variablen stützen müsste, um Phänomene wie Verwechslungen zu umgehen, die die kausale Interpretation eines bestimmten Regressionsmodells verdecken.
Mein Punkt ist: Regression werden kann gemacht kausale aber es ist nicht kausal y Standard.
Weitere Informationen finden Sie in den folgenden Videos: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s
Das "Rubin-Modell" von Rubin selbst: http://www.stat.columbia.edu/~cook/qr33.pdf
Toller Einführungskurs in die Kausalität (allerdings noch keine Regression): https://www.coursera.org/learn/crash-course-in-causality
Mein Verständnis (ich bin ein Kausalitätsanfänger) ist folgendes:
Lineare Regression impliziert Kausalität, wenn Ihre Kovariaten aus einem kontrollierten Experiment stammen und Ihr Experiment den hypothetischen Kausalfaktor gut isoliert (siehe Lineare Regression und Kausalität in einem randomisierten kontrollierten Experiment ).
Regression NIMMT einen Kausalzusammenhang an ... Wenn es keine Grundlage für die Kausalität aufgrund einer physischen / intellektuellen / wissenschaftlichen Analyse des Problems gibt, gibt es keine Grundlage für eine Kausalanalyse und keine Grundlage für eine Regression. Aus diesem Grund erklären die FDA und ähnliche Regierungsbehörden immer wieder: "Das verursacht das!" nur um es später Jahre und Milliarden von Dollar Schaden zurückzuziehen. Beispiele sind Legion: Kaffee, Schokolade, Koffein, Speck, Eier, etc ....
Noch schlimmer ist es, wenn zwei Variablen eine Rückkopplungsschleife haben. Man kann den anderen an einem Punkt verursachen; nur damit der andere den einen später veranlasst. Das passiert immer auf meinem Gebiet, in der Wirtschaft: Aus diesem Grund ist die meiste Wirtschaftsanalyse das Papier, auf dem sie gedruckt wurde, nicht wert.