Übermatching Bias und verwirrende Variablen

8

Nach meinem Verständnis ist Matching eine Möglichkeit, die Kausalität in Beobachtungsstudien zu identifizieren. Indem Sie Beobachtungen vergleichen, die "ähnlich" sind, und solche vergleichen, die behandelt wurden oder nicht, können Sie dies als eine Art Quasi-Experiment betrachten.

Was ist Überanpassung? Welche Art von Voreingenommenheit führt es ein? Ich habe Matching meistens aus wirtschaftlicher Sicht gesehen, aber kürzlich einige Artikel zur Epidemiologie gesehen, die darauf hinweisen, dass "Übermatching" zu Voreingenommenheit führen kann. Ich finde es schwierig, die Terminologie der Papiere zu verstehen, und würde mich sehr freuen, wenn jemand helfen könnte, einige der Hauptkonzepte zu erklären. Unten ist ein Artikel, der auf die Idee verweist:

Eine Überanpassung kann zu Verzerrungen führen. BMJ. 2002 10. August; 325 (7359)

— d_a_c321
quelle

11

Aus der modernen Epidemiologie 3. Auflage von Rothman, Grönland und Lash:

Es gibt mindestens drei Formen der Überanpassung. Der erste bezieht sich auf das Matching, das die statistische Effizienz beeinträchtigt, wie das Fall-Kontroll-Matching für eine Variable, die mit Exposition, aber nicht mit Krankheit verbunden ist. Der zweite bezieht sich auf ein Matching, das die Gültigkeit beeinträchtigt, wie das Matching auf einem Zwischenprodukt zwischen Exposition und Krankheit. Der dritte bezieht sich auf Matching, das die Kosteneffizienz beeinträchtigt.

Die Antwort von AndyW betrifft die zweite Form der Überanpassung. Kurz gesagt, so funktionieren sie alle:

1: Um ein Störfaktor zu sein, ist eines der Kriterien, dass die Kovariate sowohl mit dem Ergebnis als auch mit der Exposition assoziiert wird . Wenn es nur mit einem von ihnen verbunden ist, ist es kein Störfaktor, und alles, was Sie erfolgreich getan haben, ist, Ihr Konfidenzintervall zu verlängern.

Um diese Art der Überanpassung weiter zu untersuchen, betrachten Sie eine übereinstimmende Fall-Kontroll-Studie einer binären Exposition, wobei jeweils eine Kontrolle für einen oder mehrere Confounder auf jeden Fall abgestimmt ist. Jede Schicht in der Analyse besteht aus einem Fall und einer Kontrolle, sofern nicht einige Schichten kombiniert werden können. Wenn der Fall und seine übereinstimmende Kontrolle entweder beide belichtet oder beide nicht belichtet sind, ist ein Rand der 2 x 2-Tabelle 0 ... ein solches Probandenpaar trägt keine Informationen zur Analyse bei. Wenn man nach Korrelaten der Exposition schichtet, erhöht man die Wahrscheinlichkeit, dass solche Tabellen auftreten, und erhöht somit tendenziell den Informationsverlust bei der geschichteten Analyse.

2: Dies wird teilweise von AndyW diskutiert. Das Matching auf einen Zwischenfaktor beeinflusst Ihre Schätzung ebenso wie das Matching auf etwas, das sowohl von der Exposition als auch vom Ergebnis betroffen ist. Dies ist im Wesentlichen die Steuerung eines Colliders, und jede Technik, die dies tut, verzerrt Ihre Schätzung.

Wenn jedoch der potenzielle Anpassungsfaktor durch die Exposition beeinflusst wird und der Faktor wiederum die Krankheit beeinflusst (dh eine Zwischenvariable ist) oder sowohl durch die Exposition als auch durch die Krankheit beeinflusst wird, beeinflusst die Anpassung des Faktors sowohl den rohen als auch den angepassten Effekt Schätzungen. In diesen Situationen ist der Fall-Kontroll-Abgleich nichts anderes als eine irreparable Form der Auswahlverzerrung.

3: Dies ist eher ein Problem des Studiendesigns. Ein umfassender Abgleich von Variablen, mit denen Sie aus den Gründen 1 und 2 nicht übereinstimmen müssen, kann dazu führen, dass Sie leicht erhältliche Steuerelemente (Freunde, Familie, soziales Netzwerk in der Nähe usw.) ablehnen, und zwar zugunsten weitaus schwieriger zu beschaffender Steuerelemente, die mit dem übereinstimmen können unnötige Menge von Kovariaten. Das kostet Geld - Geld, das für mehr Themen, eine bessere Exposition oder Krankheitsermittlung usw. hätte ausgegeben werden können , ohne nennenswerten Gewinn an Voreingenommenheit oder Präzision zu haben und tatsächlich beide bedroht zu haben.

— Fomite
quelle

1

(+1) Gute Antwort. Ich bin nicht so überrascht zu sehen, dass das Lehrbuch von Rothman & Greenland wieder eine gute Referenz ist, um auf unserem Schreibtisch zu bleiben, immer in Reichweite.

— Chl

6

Obwohl ich die Terminologie "Überanpassung" ebenfalls nicht kannte, könnte ein Beispiel für dieselbe Idee, die ich im Fachjargon "Wirtschaft und Statistik" gehört habe, die Übereinstimmung mit einem "Zwischen" -Ergebnis sein. Siehe Andrew Gelmans Beiträge zu diesem Thema

Dies ist das gleiche Problem wie am Anfang des von Ihnen zitierten Artikels beschrieben ( Marsh et al., 2002 ).

Wenn die Exposition selbst zum Störfaktor führt oder ihm den gleichen Status hat, wird die Schichtung durch den Störfaktor auch durch die Exposition geschichtet, und das Verhältnis der Exposition gegenüber der Krankheit wird verdeckt. Dies wird als Überanpassung bezeichnet ...

Gelman gibt ein konzeptionell klares Beispiel in dem Beitrag "Macht es konservativer, Söhne zu machen". In einfachen Worten (ohne Beispiele) haben Sie nur Ihre kausalen Richtungen rückwärts.

— Andy W.
quelle

1

Recht. In Josh Angrists Buch Mostly Harmless Econometrics bezieht er sich auf dieselben Phänomene wie eine "schlechte Kontrolle". Er gibt das Beispiel einer Regression der Löhne in Bezug auf Bildung und Beruf. Dies ist eine schreckliche Regression, da sie sich aus Bildungsunterschieden innerhalb eines Berufs ergibt (z. B. wenn der Beruf Anwalt wäre, wäre es sinnlos, diese Bildungsunterschiede zu analysieren), und Bildung hat es Ihnen ermöglicht, Anwalt zu werden! Ich vermutete, dass dies eine Überanpassung gewesen sein könnte. Vielleicht kommt ein Epidiomologe, um das zu bestätigen. Vielen Dank für die tollen Gelman-Links, ich werde sie mir ansehen.

— d_a_c321

Sehr interessant und ich denke, es ist ein wichtiges und wenig diskutiertes Thema.

— Rolando2