Erklären Sie die Modellanpassung in einfachem Englisch

14

Wenn ich über Methoden und Ergebnisse statistischer Analysen, insbesondere in der Epidemiologie, lese, höre ich sehr oft über die Anpassung oder Steuerung der Modelle.

Wie würden Sie einem Nicht-Statistiker den Zweck davon erklären? Wie interpretieren Sie Ihre Ergebnisse nach der Steuerung für bestimmte Variablen?

Ein kleiner Durchgang in Stata oder R oder ein Hinweis auf einen Online-Durchgang wäre ein wahres Juwel.

regression modeling epidemiology

— radek
quelle

29

Am einfachsten an einem Beispiel zu erklären:

Stellen Sie sich eine Studie vor, die herausfindet, dass Menschen, die das WM-Finale gesehen haben, während des Spiels oder in den folgenden 24 Stunden eher einen Herzinfarkt erleiden als diejenigen, die es nicht gesehen haben. Sollte die Regierung Fußball aus dem Fernsehen verbannen? Aber Männer schauen eher Fußball als Frauen, und Männer haben auch eher einen Herzinfarkt als Frauen. Der Zusammenhang zwischen Fußball und Herzinfarkt lässt sich also möglicherweise durch einen dritten Faktor erklären , der beide Faktoren betrifft, beispielsweise das Geschlecht. (Soziologen würden hier zwischen Geschlecht , einem kulturellen Konstrukt, das mit Fußballschauen verbunden ist, und Sex unterscheiden, eine biologische Kategorie, die mit der Inzidenz von Herzinfarkten assoziiert ist, aber die beiden sind eindeutig sehr stark korreliert, daher werde ich diese Unterscheidung der Einfachheit halber ignorieren.)

Statisticians und insbesondere Epidemiologen, rufen solche dritte Faktor a confounder , und das Phänomen confounding . Der naheliegendste Weg, um das Problem zu beseitigen, besteht darin, den Zusammenhang zwischen Fußball und Herzinfarkt bei Männern und Frauen getrennt oder im Fachjargon nach Geschlecht zu schichten . Wenn wir feststellen, dass die Assoziation (falls es noch eine gibt) bei beiden Geschlechtern ähnlich ist, können wir die beiden Schätzungen der Assoziation für beide Geschlechter kombinieren. Die resultierende Schätzung des Zusammenhangs zwischen Fußball und Herzinfarkt soll dann geschlechtsspezifisch angepasst oder kontrolliert werden .

Wir würden wahrscheinlich auch andere Faktoren auf die gleiche Weise kontrollieren wollen. Das Alter ist ebenfalls offensichtlich (in der Tat schichten Epidemiologen fast jede Assoziation nach Alter und Geschlecht ein oder passen sie an bzw. kontrollieren sie). Sozioökonomische Klasse ist wahrscheinlich eine andere. Andere können kniffliger werden, z. B. sollten wir uns auf den Bierkonsum einstellen, während wir uns das Spiel ansehen? Vielleicht ja, wenn wir daran interessiert sind, wie stressig es ist, das Spiel alleine zu sehen. aber vielleicht nein, wenn wir darüber nachdenken, die Ausstrahlung von Fußball-Weltmeisterschaften zu verbieten, und das auch den Bierkonsum senken würde. Ob eine gegebene Variable ein Störfaktor ist oder nicht, hängt genau von der Frage ab, die wir beantworten möchten. Dies kann sehr sorgfältige Überlegungen erfordern und recht knifflig und sogar umstritten sein.

Dann möchten wir vielleicht einige Faktoren anpassen / kontrollieren, von denen einige in verschiedenen Kategorien (z. B. soziale Klasse) gemessen werden können, während andere kontinuierlich sind (z. B. Alter). Wir könnten mit den beständigen umgehen, indem wir sie in (Alters-) Gruppen aufteilen und sie dadurch in kategoriale Gruppen umwandeln. Angenommen, wir haben 2 Geschlechter, 5 soziale Klassengruppen und 7 Altersgruppen. Wir können nun den Zusammenhang zwischen Fußball und Herzinfarkt in 2 × 5 × 7 = 70 Schichten untersuchen. Wenn unsere Studie jedoch recht klein ist und einige dieser Schichten nur sehr wenige Personen enthalten, werden wir mit diesem Ansatz auf Probleme stoßen. In der Praxis möchten wir möglicherweise ein Dutzend oder mehr Variablen anpassen. Eine alternative Möglichkeit zum Anpassen / Steuern von Variablen, die besonders nützlich ist, wenn viele davon vorhanden sind, bietet die Regressionsanalysemit mehreren abhängigen Variablen, manchmal als multivariable Regressionsanalyse bekannt. (Abhängig von der Art der Ergebnisvariablen gibt es verschiedene Arten von Regressionsmodellen: Regression der kleinsten Quadrate, logistische Regression, Cox-Regression (Proportional Hazards) ...). In Beobachtungsstudien wollen wir uns im Gegensatz zu Experimenten fast immer auf viele potenzielle Störfaktoren einstellen. In der Praxis erfolgt die Einstellung / Kontrolle von Störfaktoren häufig über die Regressionsanalyse, obwohl es auch andere Alternativen gibt, wie z. B. Standardisierung, Gewichtung, Neigung Partiturabstimmung ...

— ein Stop
quelle

3

+1 (obwohl es mindestens +3 verdient) - sehr gründlich und umfassend. Hat mir das Ganze viel klarer gemacht. Vielen Dank!

— Radek

"Eine alternative Möglichkeit zum Anpassen / Steuern von Variablen, die besonders nützlich ist, wenn viele von ihnen vorhanden sind, bietet die Regressionsanalyse mit mehreren abhängigen Variablen, die manchmal als multivariable Regressionsanalyse bezeichnet wird." soll das "unabhängig" sein oder missverstehe ich das? und ist der Jargon dafür "multiple Regression" gebräuchlicher? (Ich weiß, das ist umstritten)

— Richard DiSalvo

10

Onestop hat es ziemlich gut erklärt, ich gebe nur ein einfaches R-Beispiel mit erfundenen Daten. Sagen wir x ist Gewicht und y ist Größe und wir wollen herausfinden, ob es einen Unterschied zwischen Männern und Frauen gibt:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Sie können sehen, dass es ohne Gewichtskontrolle (in Anova (lm1)) nur einen sehr geringen Unterschied zwischen den Geschlechtern gibt, aber wenn das Gewicht als Kovariate (kontrolliert in lm2) einbezogen wird, wird der Unterschied offensichtlicher.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
quelle