Ich werde mit dem zweiten Teil Ihrer Frage beginnen, der sich auf den Unterschied zwischen randomisierten Kontrollstudien und Beobachtungsstudien bezieht, und ihn mit dem Teil Ihrer Frage abschließen, der sich auf "wahres Modell" vs. "strukturelles Kausalmodell" bezieht.
Ich werde eines von Perles Beispielen verwenden, das leicht zu verstehen ist. Sie stellen fest, dass die Kriminalitätsrate am höchsten ist (im Sommer), wenn die Eisverkäufe am höchsten sind (im Sommer), und wenn die Eisverkäufe am niedrigsten sind (im Winter), die Kriminalitätsrate am niedrigsten ist. Dies lässt Sie sich fragen, ob die Höhe der Eisverkäufe die Kriminalität verursacht.
Wenn Sie ein randomisiertes Kontrollexperiment durchführen könnten, würden Sie viele Tage, angenommen 100 Tage, in Anspruch nehmen und an jedem dieser Tage zufällig das Verkaufsniveau für Eiscreme zuweisen. Der Schlüssel zu dieser Randomisierung liegt angesichts der in der folgenden Grafik dargestellten Kausalstruktur darin, dass die Zuordnung der Höhe der Eisverkäufe unabhängig von der Temperatur ist. Wenn ein solches hypothetisches Experiment durchgeführt werden könnte, sollten Sie feststellen, dass an den Tagen, an denen die Verkäufe zufällig als hoch eingestuft wurden, die durchschnittliche Kriminalitätsrate statistisch nicht anders ist als an den Tagen, an denen die Verkäufe als niedrig eingestuft wurden. Wenn Sie solche Daten in die Hände bekommen hätten, wären Sie fertig. Die meisten von uns müssen jedoch mit Beobachtungsdaten arbeiten, bei denen die Randomisierung nicht die Magie ausführte, die sie im obigen Beispiel hatte. Entscheidend in Beobachtungsdaten, Wir wissen nicht, ob die Höhe der Eisverkäufe unabhängig von der Temperatur bestimmt wurde oder ob sie von der Temperatur abhängt. Infolgedessen müssten wir den kausalen Effekt irgendwie vom bloßen Korrelativen entwirren.
Perles Behauptung ist, dass Statistiken keine Möglichkeit haben, E [Y | Wir setzen X auf einen bestimmten Wert] darzustellen, im Gegensatz zu E [Y | Konditionierung auf die Werte von X, wie sie durch die gemeinsame Verteilung von X und Y gegeben sind ]. Deshalb verwendet er die Notation E [Y | do (X = x)], um sich auf die Erwartung von Y zu beziehen, wenn wir auf X eingreifen und seinen Wert gleich x setzen, im Gegensatz zu E [Y | X = x]. Dies bezieht sich auf die Konditionierung des Wertes von X und dessen Annahme.
Was genau bedeutet es, in die Variable X einzugreifen oder X auf einen bestimmten Wert zu setzen? Und wie unterscheidet es sich von der Konditionierung auf den Wert von X?
Die Intervention lässt sich am besten anhand der folgenden Grafik erklären, in der die Temperatur einen kausalen Effekt sowohl auf den Eisverkauf als auch auf die Kriminalitätsrate hat und der Eisverkauf einen kausalen Effekt auf die Kriminalitätsrate hat. Die U-Variablen stehen für nicht gemessene Faktoren, die die Variablen jedoch beeinflussen Wir möchten diese Faktoren nicht modellieren. Unser Interesse gilt der kausalen Auswirkung von Eisverkäufen auf die Kriminalitätsrate und wir nehmen an, dass unsere kausale Darstellung korrekt und vollständig ist. Siehe die Grafik unten.
Nehmen wir nun an, wir könnten das Niveau der Eisverkäufe sehr hoch einstellen und beobachten, ob dies zu höheren Kriminalitätsraten führen würde. Um dies zu tun, würden wir in den Verkauf von Eiscreme eingreifen, was bedeutet, dass wir nicht zulassen, dass der Verkauf von Eiscreme auf natürliche Weise auf die Temperatur reagiert. Dies bedeutet, dass wir das, was Pearl als "Operation" bezeichnet, in der Grafik durchführen, indem wir alle darauf gerichteten Kanten entfernen Variable. In unserem Fall würden wir, da wir beim Verkauf von Eiscreme intervenieren, die Kante vom Verkauf von Temperatur zu Eiscreme entfernen, wie unten dargestellt. Wir stellen das Niveau der Eisverkäufe auf das ein, was wir wollen, anstatt zuzulassen, dass es durch die Temperatur bestimmt wird. Stellen Sie sich dann vor, wir hätten zwei solche Experimente durchgeführt: Eine, bei der wir eingegriffen haben und die Höhe der Eisverkäufe sehr hoch eingestellt haben, und eine, bei der wir eingegriffen haben und die Höhe der Eisverkäufe sehr niedrig eingestellt haben, und dann beobachtet haben, wie die Kriminalitätsrate jeweils reagiert. Dann werden wir ein Gefühl dafür bekommen, ob es einen kausalen Effekt zwischen Eisverkäufen und Kriminalitätsrate gibt oder nicht.
Pearl unterschied zwischen Intervention und Konditionierung. Die Konditionierung bezieht sich hier lediglich auf eine Filterung eines Datensatzes. Stellen Sie sich die Temperaturkonditionierung so vor, als würden Sie in unserem Beobachtungsdatensatz nur Fälle betrachten, in denen die Temperatur gleich war. Konditionierung gibt uns nicht immer den Kausaleffekt, den wir suchen (es gibt uns die meiste Zeit nicht den Kausaleffekt). Es kommt vor, dass die Konditionierung den kausalen Effekt in dem oben gezeichneten vereinfachenden Bild ergibt, aber wir können das Diagramm leicht modifizieren, um ein Beispiel zu veranschaulichen, bei dem die Konditionierung auf die Temperatur nicht den kausalen Effekt ergibt, wohingegen eine Intervention auf den Verkauf von Eiscreme dies tun würde. Stellen Sie sich vor, es gibt eine andere Variable, die Eisverkäufe verursacht. Nennen Sie sie Variable X. In der Grafik wird sie mit einem Pfeil in Eisverkäufe dargestellt. In diesem Fall, Eine Konditionierung auf die Temperatur würde uns nicht den kausalen Effekt von Eisverkäufen auf die Kriminalitätsrate geben, da dies den Pfad unberührt lassen würde: Variable X -> Eisverkäufe -> Kriminalitätsrate. Im Gegensatz dazu würde ein Eingreifen in den Verkauf von Eis per Definition bedeuten, dass wir alle Pfeile in Eis entfernen, und dies würde uns den kausalen Effekt des Verkaufs von Eis auf die Kriminalitätsrate geben.
Ich möchte nur erwähnen, dass einer der größten Beiträge einer Perle meiner Meinung nach das Konzept der Kollider ist und wie die Konditionierung von Kollidern dazu führt, dass unabhängige Variablen wahrscheinlich abhängig sind.
Pearl würde ein Modell mit Kausalkoeffizienten (direkter Effekt) nennen, wie es durch E [Y | do (X = x)] als strukturelles Kausalmodell gegeben ist. Und Regressionen, bei denen die Koeffizienten durch E [Y | X] gegeben sind, nennen die Autoren fälschlicherweise "wahres Modell", dh fälschlicherweise, wenn sie versuchen, den kausalen Effekt von X auf Y abzuschätzen und nicht nur Y vorherzusagen .
Welche Verbindung besteht zwischen den Strukturmodellen und dem, was wir empirisch tun können? Angenommen, Sie möchten den kausalen Effekt von Variable A auf Variable B verstehen. Pearl schlägt zwei Möglichkeiten vor: das Backdoor-Kriterium und das Front-Door-Kriterium. Ich werde auf das erstere eingehen.
Backdoor-Kriterium: Zuerst müssen Sie alle Ursachen jeder Variablen korrekt zuordnen und mithilfe des Backdoor-Kriteriums die Variablen identifizieren, auf die Sie sich einstellen müssen (und ebenso wichtig die Variablen, die Sie benötigen, um sich zu vergewissern) nicht bedingen (dh Kollider), um die kausale Wirkung von A auf B zu isolieren. Wie Pearl betont, ist dies überprüfbar. Sie können testen, ob Sie das Kausalmodell korrekt zugeordnet haben. In der Praxis ist dies leichter gesagt als getan und meiner Meinung nach die größte Herausforderung mit dem Backdoor-Kriterium von Pearl. Zweitens führen Sie die Regression wie gewohnt aus. Jetzt wissen Sie, worauf Sie sich einstellen müssen. Die Koeffizienten, die Sie erhalten, sind die direkten Auswirkungen, wie in Ihrer Kausalkarte dargestellt.