Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt
- Modell 1 hat drei Prädiktoren
x1a
,x2b
undx2c
- Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren
x2a
undx2b
Es gibt eine Populationsregressionsgleichung, bei der die erklärte Populationsvarianz für Modell 1 für Modell 2 . Die durch Modell 2 erklärte inkrementelle Varianz in der Population ist ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Ich bin daran interessiert, Standardfehler und Konfidenzintervalle für einen Schätzer von . Während das Beispiel 3 bzw. 2 Prädiktoren umfasst, betrifft mein Forschungsinteresse eine breite Palette unterschiedlicher Anzahlen von Prädiktoren (z. B. 5 und 30). Mein erster Gedanke war, als Schätzer zu verwenden und es zu booten, aber ich war mir nicht sicher, ob dies der Fall sein würde sei anständig. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Fragen
- Ist ein vernünftiger Schätzer für ? Δ ρ 2
- Wie kann ein Konfidenzintervall für die Änderung des Populations-R-Quadrats erhalten werden (dh )?
- Wäre Bootstrapping für die Berechnung des Konfidenzintervalls geeignet?
Hinweise auf Simulationen oder die veröffentlichte Literatur sind ebenfalls sehr willkommen.
Beispielcode
Wenn es hilft, habe ich in R einen kleinen Simulationsdatensatz erstellt, mit dem eine Antwort demonstriert werden kann:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Grund zur Sorge um Bootstrap
Ich habe einen Bootstrap für einige Daten mit etwa 300 Fällen und 5 Prädiktoren im einfachen Modell und 30 Prädiktoren im vollständigen Modell ausgeführt. Während die Stichprobenschätzung unter Verwendung der angepassten r-Quadrat-Differenz war 0.116
, war das Boostrapped-Konfidenzintervall meist größer als CI95% (0,095 bis 0,214) und der Mittelwert der Bootstraps lag bei weitem nicht in der Nähe der Stichprobenschätzung. Vielmehr schien der Mittelwert der Boostrapped-Proben auf der Stichprobenschätzung der Differenz zwischen den r-Quadraten in der Probe zentriert zu sein. Dies trotz der Tatsache, dass ich die stichprobenangepassten r-Quadrate verwendet habe, um die Differenz abzuschätzen.
Interessanterweise habe ich eine alternative Methode zur Berechnung von als ausprobiert
- Berechnen Sie die Änderung des R-Quadrats der Stichprobe
- Passen Sie die Änderung des R-Quadrats der Stichprobe mithilfe der standardmäßigen angepassten R-Quadrat-Formel an
Bei Anwendung auf die Probendaten reduzierte dies die Schätzung von auf, aber die Konfidenzintervalle schienen für die zuerst erwähnte Methode CI95% (.062, .179) mit einem Mittelwert von .118 angemessen zu sein..082
Im Allgemeinen bin ich besorgt, dass beim Bootstrapping davon ausgegangen wird, dass es sich bei der Stichprobe um die Grundgesamtheit handelt, und daher Schätzungen, die sich aufgrund einer Überanpassung verringern, möglicherweise nicht angemessen funktionieren.