Wir alle kennen Beobachtungsstudien, die versuchen, einen Kausalzusammenhang zwischen einem nicht randomisierten Prädiktor X und einem Ergebnis herzustellen, indem jeder erdenkliche potenzielle Störfaktor in ein multiples Regressionsmodell einbezogen wird. Indem wir also alle Störfaktoren "kontrollieren", so das Argument, isolieren wir den Effekt des interessierenden Prädiktors.
Ich empfinde diese Idee zunehmend als unangenehm, hauptsächlich aufgrund von Bemerkungen, die verschiedene Professoren meiner Statistikklassen gemacht haben. Sie fallen in ein paar Hauptkategorien:
1. Sie können nur Kovariaten kontrollieren, an die Sie denken und die Sie messen.
Dies ist offensichtlich, aber ich frage mich, ob es tatsächlich das schädlichste und unüberwindlichste von allen ist.
2. Der Ansatz hat in der Vergangenheit zu hässlichen Fehlern geführt.
Zum Beispiel diskutieren Petitti & Freedman (2005) , wie statistisch angepasste Beobachtungsstudien im Wert von Jahrzehnten zu katastrophal falschen Schlussfolgerungen über die Wirkung der Hormonersatztherapie auf das Herzkrankheitsrisiko kamen. Spätere RCTs fanden fast entgegengesetzte Effekte.
3. Die Prädiktor-Ergebnis-Beziehung kann sich seltsam verhalten, wenn Sie auf Kovariaten kontrollieren.
Yu-Kang Tu, Gunnell & Gilthorpe (2008) diskutieren verschiedene Erscheinungsformen, darunter Lord's Paradox, Simpsons Paradox und Suppressorvariablen.
4. Für ein einzelnes Modell (multiple Regression) ist es schwierig, Kovariaten angemessen zu berücksichtigen und gleichzeitig die Prädiktor-Ergebnis-Beziehung zu modellieren.
Ich habe dies als Grund für die Überlegenheit von Methoden wie Neigungsbewertungen und Schichtung auf Störfaktoren gehört, bin mir aber nicht sicher, ob ich das wirklich verstehe.
5. Das ANCOVA-Modell setzt voraus, dass die Kovariate und der Prädiktor von Interesse unabhängig sind.
Natürlich passen wir Confounder genau an, WEIL sie mit dem interessierenden Prädiktor korrelieren. Es scheint also, dass das Modell in genau den Fällen, in denen wir es am meisten wollen, nicht erfolgreich sein wird. Es wird argumentiert, dass die Anpassung nur zur Rauschreduzierung in randomisierten Studien geeignet ist. Miller & Chapman, 2001 geben eine großartige Rezension.
Meine Fragen sind also:
- Wie ernst sind diese und andere Probleme, von denen ich vielleicht nichts weiß?
- Wie ängstlich sollte ich sein, wenn ich eine Studie sehe, die "für alles kontrolliert"?
(Ich hoffe, dass diese Frage nicht zu weit in das Diskussionsgebiet vordringt und lade gerne Vorschläge ein, um sie zu verbessern.)
EDIT : Ich habe Punkt 5 hinzugefügt, nachdem ich eine neue Referenz gefunden habe.