Ausgelassene variable Verzerrung: Welche Prädiktoren muss ich einbeziehen und warum?

7

In den letzten Wochen habe ich über OVB (Omitted Variable Bias) im Zusammenhang mit Regression und Lösung dafür nachgedacht (wie man dieses Problem vermeidet). Ich kenne Shalizis Vorlesungen (2.2), aber er beschreibt dies nur mathematisch.

Diese Woche jemand gesagt , dass es ist ganz einfach - die Lösung für die OVB ist es, alle diese Prädiktoren enthalten , die die Wirkung der Verwechselung Kovariaten kontrollieren, nicht alle Prädiktoren für abhängige Variable Y .

Ich bin mir nicht sicher, ob dies wahr ist, und ja, ich habe das Gefühl, dass mir tieferes Wissen fehlt.

multiple-regression bias causality

— Lil'Lobster
quelle

2

Können Sie auf diese Vorträge verlinken?

— Matthew Drury

7

Dies ist nicht unbedingt falsch, aber nicht immer machbar und auch kein kostenloses Mittagessen.

Eine ausgelassene Variable kann zu Verzerrungen führen (siehe z. B. die Kommentare unten für zusätzliche Überlegungen zu diesem Thema), wenn beide (a) mit dem Ergebnis zusammenhängen $Y$ und (b) mit dem Prädiktor korreliert $X$ deren Wirkung auf $Y$ Du bist hauptsächlich interessiert an.

Betrachten Sie ein Beispiel: Sie möchten mehr über die kausalen Auswirkungen zusätzlicher Schulbildung auf das spätere Einkommen erfahren. Eine andere Variable, die mit Sicherheit die Bedingungen (a) und (b) erfüllt, ist "Motivation" - motiviertere Menschen werden beide erfolgreicher in ihrer Arbeit sein (unabhängig davon, ob sie eine hohe Schulbildung haben oder nicht) und sich im Allgemeinen für mehr Bildung entscheiden, da Sie lernen wahrscheinlich gern und finden es nicht zu schmerzhaft, für Prüfungen zu lernen.

Wenn Sie also das Einkommen von hochschulischen und wenigerschulischen Mitarbeitern vergleichen, ohne die Motivation zu kontrollieren, würden Sie wahrscheinlich zumindest teilweise nicht zwei Gruppen vergleichen, die sich nur hinsichtlich ihrer Schulbildung (an deren Wirkung Sie interessiert sind), sondern auch hinsichtlich ihrer Schulbildung unterscheiden Motivation, so dass der beobachtete Unterschied im Einkommen nicht nur auf Unterschiede in der Schulbildung zurückzuführen ist.

Nun wäre es in der Tat eine Lösung, die Motivation zu kontrollieren, indem man sie in die Regression einbezieht. Das wahrscheinliche Problem ist natürlich: Werden Sie Daten zur Motivation haben? Selbst wenn Sie selbst eine Umfrage durchführen würden (anstatt beispielsweise Verwaltungsdaten zu verwenden, die höchstwahrscheinlich keine Einträge zur Motivation enthalten), wie würden Sie diese überhaupt messen?

Warum das Einschließen von allem kein kostenloses Mittagessen ist: Wenn Sie eine kleine Stichprobe haben, kann das Einbeziehen aller verfügbaren Kovariaten schnell zu einer Überanpassung führen, wenn Vorhersage Ihr Ziel ist. Siehe zum Beispiel diese sehr schöne Diskussion.

— Christoph Hanck
quelle

1

Cristoph, vielleicht möchten Sie etwas präziser in Bezug auf Ihren zweiten Absatz sein - einige Gegenbeispiele für diese Definition von Voreingenommenheit finden Sie hier: stats.stackexchange.com/questions/59369/confounder-definition/…

— Carlos Cinelli

4

Ihre Definition diskreditiert nicht vermittelnde Variablen oder Kollider zur Anpassung. Das Anpassen dieser Variablen führt zu Verzerrungen der Kollidervorspannung oder zur Effektdämpfung. Es funktioniert auch unter einem Beispiel einer geschlossenen Welt. In diesem Fall müssen Sie davon ausgehen, dass Sie alle möglichen verwirrenden Variablen gemessen haben , eine Annahme, die selten erfüllt oder diskutiert wird. Eine vollständige Definition der verwirrenden Voreingenommenheit ist ziemlich schwierig.

— AdamO

2

Ferner ist es in der Inferenzstatistik wichtig, "Motivation" gemäß den früheren Diskussionen als verwirrende Variable zu bezeichnen. Außerdem gelten Ihre Kommentare nur für GLMs mit linearen oder Protokollverknüpfungen.

— AdamO

9

Die Lösung für OVB besteht darin, alle Prädiktoren einzuschließen, die den Effekt der Verwechslung von Kovariaten steuern, nicht alle Prädiktoren für die abhängige Variable Y.

Ja, das ist richtig, wenn Sie genauer sind. Zu Identifikationszwecken sollten Sie die Variablen einbeziehen, die den Effekt der Verwirrung steuern, und diejenigen vermeiden, die verwirrende Pfade öffnen oder den Effekt vermitteln, den Sie messen möchten (wenn Sie an dem Gesamteffekt interessiert sind) - das heißt, Sie sollten einbeziehen die Variablen, die das Backdoor-Kriterium erfüllen . Sie sollten nicht alle Prädiktoren von wahllos einbeziehen $Y$ , wenn Sie mit Prädiktor etwas meinen, was "vorhersagt" $Y$ --- Dies könnte Ihre Schätzung beeinflussen.

In diesem Sinne ist es erwähnenswert, dass Christophs Antwort nicht genau richtig ist:

Eine ausgelassene Variable verursacht eine Verzerrung, wenn sie sowohl (a) mit dem Ergebnis Y zusammenhängt als auch (b) mit dem Prädiktor X korreliert, dessen Auswirkung auf Y Sie hauptsächlich interessiert

Das ist nicht wahr. Korrelationskriterien sind weder notwendig noch ausreichend, um zu definieren, was ein Störfaktor ist. Dies ist ein weit verbreitetes Missverständnis bei der Definition von Störfaktoren, das in dieser anderen Antwort dargestellt wird.

Welche Variablen einbezogen werden müssen, um die Identifizierung zu gewährleisten, betrifft natürlich nur die Frage, ob konsistente Schätzungen der kausalen interessierenden Menge vorliegen. Sie müssen viele andere Probleme angehen, z. B. die Effizienz Ihrer Schätzung (Sie können also Variablen auswählen / vermeiden, die die Varianz verringern / erhöhen), Verzerrungen aufgrund einer falschen Angabe der Funktionsform usw.

— Carlos Cinelli
quelle

4

(+1) Können Sie eine Erklärung für das Backdoor-Kriterium geben?

— AdamO

3

@AdamO ist im Grunde eine Reihe von Variablen, die die Auswirkung häufiger Ursachen blockieren und keine neuen verwirrenden Pfade eröffnen (z. B. Collider). In einigen Fällen müssen Sie jedoch wie in Abb. 3.4 des PDF-Dokuments möglicherweise nach Collidern suchen um den geöffneten Pfad weiter zu blockieren) und keine Variablen enthalten, die den Effekt vermitteln, den Sie messen möchten (wenn Sie am Gesamteffekt interessiert sind).

— Carlos Cinelli

2

In der Tat bestand der Zweck der Anfrage darin, die Zugänglichkeit Ihrer (sehr guten) Antwort zu verbessern.

— AdamO

Sie haben genau festgelegt, dass sich das Backdoor-Kriterium mit dem „Gesamteffekt“ befasst. Ist es im linearen SCM richtig zu sagen, dass, wenn unser SCM durch nur eine Strukturgleichung vollständig spezifiziert ist, jeder direkte Effekt mit dem Gesamtwert zusammenfällt? Dann gibt es keinen indirekten Effekt? Und jeder einzelne Strukturparameter hat eine Gesamtwirkungsbedeutung? Wenn die Antwort zu artikuliert ist, kann ich eine andere Frage öffnen

— Markowitz

@markowitz es ist nicht korrekt, Sie müssen explizit sagen, dass sich alle anderen Variablen nicht gegenseitig verursachen - nur dann, wenn Sie davon ausgehen, dass es keinen indirekten Effekt gibt.

— Carlos Cinelli

5

Theoretisch eliminiert das Einbeziehen aller relevanten Prädiktoren die ausgelassene variable Vorspannung. Es ist jedoch möglicherweise nicht immer möglich, alle relevanten erklärenden Variablen in Ihre Regression einzubeziehen (aufgrund der Unkenntnis relevanter Variablen oder des Mangels an Daten).

In Bezug auf den Mangel an Wissen über die ausgelassene variable Verzerrung. Es gibt ein paar gute Vorträge über die OVB. Wenn Sie sich umschauen, könnte eine der umfassendsten Vorlesungen über die ausgelassene variable Verzerrung folgende sein:

https://economictheoryblog.com/2018/05/04/omitted-variable-bias

Es enthält auch einen Abschnitt, in dem mögliche Strategien gegen eine ausgelassene variable Verzerrung erörtert werden.

— Sandro Salter
quelle

1

Das Einbeziehen aller Variablen kann die Vorhersagegenauigkeit des Modells beeinträchtigen. Es kann auch ein Multikollinearitätsproblem erzeugen. Ich bin mir nicht sicher, was Sie meinen, wenn Sie sagen "Es ist möglicherweise nicht immer möglich, alle möglichen erklärenden Variablen einzubeziehen".

— Michael R. Chernick

1

Sandro, das ist falsch und das Problem ist sogar ungenau. Das Einbeziehen einiger Prädiktoren führt zu einer dauerhaften Verzerrung Ihrer Schätzung, selbst bei unendlichen Stichproben (siehe stats.stackexchange.com/questions/59369/confounder-definition/…) .

— Carlos Cinelli

Du hast recht. Ich meinte alle relevanten erklärenden Variablen. Ich habe meine Antwort angepasst. Vielen Dank.

— Sandro Salter

2

@ SandroSalter was meinst du mit relevant? Sie müssen hier genau sein.

— Carlos Cinelli

3

Carlos 'Antwort ist insofern gut, als sie einen großen Mangel in der Regressionsmodellierungspraxis behebt. Der Begriff OVB ist sehr ungenau. Außer unter atypischen mathematischen Strukturen, die Anpassung für andere Variablen wird die Wirkung verändern für einen primären Regressor geschätzt. Dies allein bedeutet nicht, dass alle diese Variablen in ein Modell aufgenommen werden sollten.

Das "Backdoor-Kriterium" befasst sich speziell mit verwirrenden Vorurteilen. Ein Expertenpublikum akzeptiert / glaubt im Allgemeinen keine Ergebnisse von Modellen, bei denen verwirrende Variablen bei der Anpassung weggelassen werden. Das hat gute Gründe. Ausgelassene Störfaktoren haben in großen Bestätigungsstudien zu völlig falschen Schlussfolgerungen geführt und außerdem zu Richtlinien, Arzneimittelindikationen oder Medienberichterstattung, die kostspielig und schädlich waren. Die bevorzugte Terminologie ist hier eher eine verwirrende Verzerrung als nur eine OVB. Dies gilt für alle Arten von Modellen, einschließlich der am weitesten verbreiteten linearen Regression.

Das zweithäufigste (vielleicht) Modell ist die logistische Regression. Es gibt eine andere Art von "Voreingenommenheit" (vielleicht), die sich aus logistischen Modellen ergibt, die nichts mit Verwirrung zu tun haben. Sie können den primären Effekt ändern, indem Sie Variablen anpassen, die nicht mit dem primären Regressor korreliert sind. Dies liegt an der Nichtkollabierbarkeit des Quotenverhältnisses . Dies tritt auf, wenn die primäre Exposition eine heterogene Verteilung von Kovariaten aufweist, die dem Basisrisiko des Ergebnisses zugrunde liegen. Die Steigung des Sigmoid, die die "gemittelte" Akkumulation des Risikos pro Einheitsdifferenz in einem primären Regressor schätzt, wird abgeschwächt. Diese Art von Verzerrung tritt auf, wenn das Ziel der Inferenz eher das Risiko auf individueller Ebene als das gemittelte Bevölkerungsniveau war.

Im Allgemeinen wird den Modellierern empfohlen, prognostische Variablen oder Variablen anzupassen , die, obwohl sie nicht mit dem primären Regressor zusammenhängen, das Ergebnis kausal vorhersagen. Beispiele könnten in einer Studie über Lungenkrebs und Rauchen sein, Gruppen von Teilnehmern durch Umweltverschmutzung. Nehmen wir im Moment an, dass keine Beweise darauf hindeuten, dass Unterschiede in der Regionalität die Backdoor-Kriterien erfüllen, um die Beziehung zwischen Rauchen und Krebs zu verwechseln. Der Unterschied im Risiko für diese Umweltexposition sagt jedoch im Wesentlichen das Risiko für Lungenkrebs voraus. Die Anpassung an die Umweltexposition schichtet diese Teilnehmer feiner, so dass die offensichtlichen Unterschiede zwischen Rauchen und Nichtrauchen sowie das Krebsrisiko offensichtlich sind.

Eine sehr schöne Beschreibung des Unterschieds finden Sie hier: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3147074/pdf/dyr041.pdf

— AdamO
quelle