Andrew Gelman in einem seiner letzten Blog-Beiträge sagt:
Ich glaube nicht, dass für das Simpson-Paradoxon Kontrafakten oder potenzielle Ergebnisse notwendig sind. Ich sage das, weil man Simpsons Paradoxon mit Variablen aufstellen kann, die nicht manipuliert werden können oder für die Manipulationen nicht direkt von Interesse sind.
Das Simpson-Paradoxon ist Teil eines allgemeineren Problems, bei dem sich die Regressionsfaktoren ändern, wenn Sie mehr Prädiktoren hinzufügen. Das Umkehren des Vorzeichens ist nicht wirklich erforderlich.
Hier ist ein Beispiel, das ich in meinem Unterricht verwende und das beide Punkte veranschaulicht:
Ich kann eine Regression durchführen, die das Einkommen nach Geschlecht und Größe vorhersagt. Ich stelle fest, dass der Koeffizient des Geschlechts 10.000 USD beträgt (dh, wenn ein Mann und eine Frau gleicher Größe verglichen werden , verdient der Mann durchschnittlich 10.000 USD mehr) und der Koeffizient der Größe 500 USD beträgt (dh wenn zwei Männer oder zwei Frauen verglichen werden) Bei unterschiedlichen Körpergrößen verdient die größere Person im Durchschnitt 500 USD mehr pro Zoll Körpergröße.
Wie kann ich diese Coefs interpretieren? Ich bin der Meinung, dass der Koeffizient der Körpergröße leicht zu interpretieren ist (man kann sich leicht vorstellen, zwei Personen desselben Geschlechts mit unterschiedlichen Körpergrößen zu vergleichen). In der Tat scheint es „falsch“ zu sein, die Körpergröße zu reduzieren, ohne den Sex zu kontrollieren Der Unterschied zwischen kleinen und großen Menschen kann durch Unterschiede zwischen Männern und Frauen „erklärt“ werden. Aber der Geschlechtskoeffizient im obigen Modell scheint sehr schwer zu interpretieren: Warum zum Beispiel einen Mann und eine Frau vergleichen, die beide 66 Zoll groß sind? Das wäre ein Vergleich eines kleinen Mannes mit einer großen Frau. All diese Überlegungen scheinen vage kausal zu sein, aber ich halte es nicht für sinnvoll, darüber anhand möglicher Ergebnisse nachzudenken.
Ich habe darüber nachgedacht (und sogar den Beitrag kommentiert) und denke, dass es hier etwas gibt, das klarer verstanden werden muss.
Bis zum Teil über die Interpretation des Geschlechts ist es so okay. Aber ich verstehe nicht, was das Problem ist, wenn man einen kleinen Mann mit einer großen Frau vergleicht. Hier ist mein Punkt: In der Tat macht es noch mehr Sinn (unter der Annahme, dass Männer im Durchschnitt größer sind). Man kann einen "kleinen Mann" und eine "kleine" Frau nicht genau aus dem gleichen Grund vergleichen, dass der Einkommensunterschied zum Teil durch den Höhenunterschied erklärt wird. Gleiches gilt für große Männer und große Frauen und noch mehr für kleine Frauen und große Männer (was sozusagen weiter außer Frage steht). Die Auswirkung der Körpergröße wird also im Grunde genommen nur dann eliminiert, wenn kleine Männer und große Frauen verglichen werden (und dies hilft bei der Interpretation des Koeffizienten für das Geschlecht). Läutet es nicht ähnliche Konzepte hinter den beliebten Matching-Modellen ein?
Die Idee hinter Simpsons Paradoxon ist, dass sich der Populationseffekt möglicherweise von dem / den Untergruppen-Effekt (en) unterscheidet. Dies hängt in gewissem Sinne mit seinem Punkt 2 und der Tatsache zusammen, dass er anerkennt, dass die Höhe nicht für sich allein gesteuert werden sollte (was wir sagen, ohne variable Vorspannung). Dies konnte ich jedoch nicht mit der Kontroverse über den Koeffizienten für das Geschlecht in Verbindung bringen.
Vielleicht können Sie es klarer ausdrücken? Oder mein Verständnis kommentieren?