In einem kürzlich erschienenen Aufsatz von Norton et al. (2018) [ 1 ] geben an, dass
Unterschiedliche Quotenverhältnisse aus derselben Studie können nicht verglichen werden, wenn die statistischen Modelle, die zu Quotenverhältnisschätzungen führen, unterschiedliche erklärende Variablen aufweisen, da jedes Modell einen anderen willkürlichen Skalierungsfaktor hat. Die Größe der Odds Ratio einer Studie kann auch nicht mit der Größe der Odds Ratio einer anderen Studie verglichen werden, da unterschiedliche Stichproben und unterschiedliche Modellspezifikationen unterschiedliche willkürliche Skalierungsfaktoren haben. Eine weitere Implikation ist, dass die Größen der Odds Ratios einer bestimmten Assoziation in mehreren Studien nicht in einer Metaanalyse synthetisiert werden können.
Eine kleine Simulation veranschaulicht dies (R-Code steht am Ende der Frage). Angenommen , die wahre Modell ist:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Es ist offensichtlich, dass nur die Forscher 3 und 4 das richtige Quotenverhältnis von ungefähr während die Forscher 1 und 2 dies nicht tun. Dies geschieht nicht in einer linearen Regression, die durch eine ähnliche Simulation (hier nicht gezeigt) leicht gezeigt werden kann. Ich muss gestehen, dass dieses Ergebnis für mich ziemlich überraschend war, obwohl dieses Problem wohl bekannt zu sein scheint [ 2 ] . Hernán et al. (2011) [ 3 ] bezeichnen dies als "mathematische Kuriosität" anstelle einer Verzerrung.
Meine Fragen:
- Wie können wir die Ergebnisse verschiedener Studien für binäre Ergebnisse kombinieren, wenn die Quotenverhältnisse zwischen Studien und Modellen grundsätzlich nicht vergleichbar sind?
- Was kann über die unzähligen Metaanalysen gesagt wird , dass hat die Odds Ratios aus verschiedenen Studien , in denen jede Studie möglicherweise angepasst für einen anderen Satz von Kovariaten kombinieren? Sind sie im Wesentlichen nutzlos?
Verweise
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Quotenverhältnisse - Aktuelle Best Practice und Verwendung. JAMA 320 (1): 84 & ndash; 85.
[2]: Norton EC, Dowd BE (2017): Log Odds und die Interpretation von Logit-Modellen. Health Serv Res. 53 (2): 859 & ndash; 878.
[3]: Hernán MA, Clayton D, Keiding N (2011): Das Simpson-Paradoxon wird aufgelöst. Int J Epidemiol 40: 780 & ndash; 785.
Offenlegung
Die Frage (einschließlich des R-Codes) ist eine modifizierte Version einer Frage, die der Benutzer timdisher zu Datenmethoden stellt .
R-Code
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios