Welche Verbindung besteht zwischen Methoden wie Matching und statistischer Kontrolle von Variablen?

10

Oft lesen Sie in Forschungsartikeln, die die Forscher für bestimmte Variablen kontrolliert haben. Dies kann durch Methoden wie Matching, Blocking usw. erfolgen.

Aber ich habe immer gedacht, dass die Kontrolle von Variablen statistisch durchgeführt wird, indem mehrere Variablen gemessen werden, die Einfluss haben könnten, und statistische Analysen dieser Variablen durchgeführt werden, die sowohl in echten als auch in Quasi-Experimenten durchgeführt werden können. So hätten Sie zum Beispiel eine Umfrage oder einen anderen Test, bei dem Sie die unabhängige Variable und einige möglicherweise verwirrende Variablen messen und eine Analyse durchführen würden.

Ist es möglich, Variablen in Quasi-Experimenten zu kontrollieren?
Welche Verbindung besteht zwischen Methoden wie Matching und statistischer Kontrolle von Variablen?

experiment-design random-variable controlling-for-a-variable

— Renée Damstra
quelle

1

Haben Sie sich diese Frage angesehen: Wie genau steuert eine für andere Variablen ?

— Gung - Reinstate Monica

6

Wie bei AdamO denke ich, dass der Schlüssel zur Beantwortung dieser Frage der Begriff der kausalen Folgerung ist und wie man mithilfe von Beobachtungsaufbauten einem kausalen Modell "näher kommt".

In einer perfekten Welt hätten wir eine sogenannte kontrafaktische Population - die Studienpopulation, die in jeder Hinsicht identisch ist, mit Ausnahme der einzigen Sache, an der wir interessiert sind. Der Unterschied zwischen diesen beiden Populationen, basierend auf diesem Unterschied, ist ein echtes kausales Ergebnis.

Offensichtlich können wir das nicht haben.

Es gibt jedoch Möglichkeiten, sich dem anzunähern:

Randomisierung: Theoretisch (wenn die Randomisierung korrekt durchgeführt wird) sollten Sie zwei identische Populationen erhalten, mit Ausnahme der Behandlung nach der Randomisierung.
Schichtung: Sie können eine Population innerhalb von Kovariatenebenen betrachten, in der Sie Vergleiche mit "Gleichem mit Gleichem" anstellen. Dies funktioniert hervorragend für eine kleine Anzahl von Ebenen, wird jedoch schnell umständlich.
Matching: Matching ist ein Versuch, eine Studienpopulation so zusammenzustellen, dass Gruppe A der Gruppe B ähnelt und daher vergleichbar ist.
Statistische Anpassung: Die Einbeziehung von Kovariaten in ein Regressionsmodell ermöglicht die Abschätzung eines Effekts innerhalb der Ebenen der Kovariaten - wiederum Vergleich von Gleichem mit Gleichem oder zumindest Versuch.

Alle sind ein Versuch, dieser kontrafaktischen Bevölkerung näher zu kommen. Wie Sie am besten dazu kommen, hängt davon ab, was Sie herausholen möchten und wie Ihr Studium aussieht.

— Fomite
quelle

Wunderbare Erklärung. Viel prägnanter und besser auf die ursprüngliche Frage eingegangen. Lassen Sie mich hinzufügen, dass von diesen Methoden nur die statistische Anpassung für das Problem der leeren Schichten undurchlässig ist. Wenn wir in einer Fall-Kontroll-Studie die Bevölkerung nach Alter schichten möchten, müssen Matching, Stratifizierung und (Block-) Randomisierung nach Alter vergröbert oder zusammengefasst werden, um einen 50 Jahre alten Fall mit einer 51 Jahre alten Kontrolle zu vergleichen.

— AdamO

Bei der logistischen Regression können Sie jedoch fortlaufende Informationen verwenden, um Informationen implizit gruppenübergreifend auszuleihen, z. B. mit linearem oder Basis-Spline-angepasstem Alter, um diesen Vergleich durchzuführen. Dies macht die Regressionsmodellierung zu einer der leistungsfähigsten und nützlichsten verfügbaren statistischen Methoden.

— AdamO

@AdamO Einverstanden - In meiner Antwort in der oben verlinkten Frage erwähne ich, dass es verwendet werden kann, um Bereiche ohne Informationen zu glätten, solange dieser Mangel an Informationen auf Zufall und Binning zurückzuführen ist. Aber ja - es gibt einen Grund, warum Regression großartig ist.

— Fomite

2

Ich denke, kausale Modellierung ist der Schlüssel zur Beantwortung dieser Frage. Man muss zu Beginn den richtigen angepassten / geschichteten / kontrollierten Effekt von Interesse identifizieren, bevor man sich überhaupt Daten ansieht. Wenn ich die Beziehung zwischen Körpergröße und Lungenkapazität bei Erwachsenen abschätzen würde, würde ich mich an den Raucherstatus anpassen, da das Rauchen das Wachstum bremst und die Lungenkapazität beeinflusst. Confounder sind Variablen, die kausal mit dem Prädiktor des Interesses zusammenhängen und mit dem Ergebnis des Interesses verbunden sind. Siehe Kausalität von Judea Pearl, 2. Aufl. Man sollte ihre Analyse für die richtigen verwirrenden Variablen spezifizieren und durchführen, bevor der Datenerfassungsprozess überhaupt mit rationaler Logik und Vorkenntnissen aus früheren explorativen Studien beginnt.

Dies bedeutet jedoch nicht, dass sich einige Forscher nicht auf datengesteuerte Methoden verlassen, um Anpassungsvariablen auszuwählen. Ich bin damit nicht einverstanden, dies in der Praxis zu tun, wenn Bestätigungsanalysen durchgeführt werden. Einige gängige Techniken bei der Modellauswahl für mehrere angepasste Modelle sind die Vorwärts- / Rückwärtsmodellauswahl, bei der Sie sich auf Modellklassen beschränken können, die Sie für zumindest plausibel halten. Das Blackbox-AIC-Auswahlkriterium hierfür hängt mit der Wahrscheinlichkeit und damit dem Grad der Reduktion des $R^2$ für lineare Modelle für diese Anpassungsvariablen. Ein weiterer in der Epidemiologie üblicher Prozess besteht darin, dass Variablen nur dann zum Modell hinzugefügt werden, wenn sie die Schätzung des Haupteffekts (wie eine Odds Ratio oder Hazard Ratio) um mindestens 10% ändern. Dies ist zwar "korrekter" als die AIC-basierte Modellauswahl, aber ich denke immer noch, dass dieser Ansatz große Einschränkungen aufweist.

Meine Empfehlung ist, die gewünschte Analyse als Teil einer Hypothese vorzugeben. Das altersbereinigte Rauch- / Krebsrisiko ist ein anderer Parameter und führt in einer kontrollierten Studie zu einer anderen Schlussfolgerung als das rohe Rauch- / Krebsrisiko. Die Verwendung von Fachwissen ist der beste Weg, um Prädiktoren für die Anpassung in Regressionsanalysen oder als Schichtungs-, Matching- oder Gewichtungsvariablen in verschiedenen anderen Arten von "kontrollierten" Analysen des experimentellen und quasiexperimentellen Designs auszuwählen.

— AdamO
quelle

2

Die Geschichte über die Beziehung zwischen Matching und Regression wird hier in einem Blog-Beitrag kurz zusammengefasst . Zusamenfassend

"Regress auf D [ein Behandlungsindikator] ein vollständiger Satz von Dummies (dh gesättigten) Modellen für X [Kovariaten]. Die resultierende Schätzung der Wirkung von D entspricht der Übereinstimmung auf X und der Gewichtung über Kovariatenzellen durch die Varianz der Behandlung abhängig von X "

Siehe auch Abschnitt 3.3 von Mostly Harmless Econometrics oder Abschnitt 5.3 von Counterfactuals and Causal Inference für eine gründliche Diskussion, einschließlich der Vor- und Nachteile der D-gegebenen X-Gewichtung, die die Regression implizit bietet.

@EpiGrad gibt einen guten Start für Ihre erste Frage. Die oben verlinkten Bücher behandeln es fast ausschließlich. Wenn Sie keinen Hintergrund in Informatik / Mathematik haben, kann es sein, dass Pearl Schwierigkeiten hat (obwohl es sich am Ende lohnt!).

— Konjugatprior
quelle