Kennen Sie eine Referenz oder einen Namen für die folgende Methode, um zu untersuchen, ob eine komplexe Modellierungstechnik verzerrt ist?
- Wenden Sie auf den Originaldatensatz an. Messen Sie die Leistung (z. B. R-Quadrat in der Regressionseinstellung).
- Permutieren Sie die Antwortvariable nach dem Zufallsprinzip, um einen neuen Datensatz zu erhalten. Wende und messe seine Leistung . [Wenn die Beobachtungen abhängig sind, ist dieser Schritt komplizierter.]
Wenn sich wesentlich von der Leistung Null unterscheidet, schließen wir, dass voreingenommen ist. T.
Schritt 2 kann wiederholt werden, wenn die Ressourcen dies zulassen, was zur Permutationsnullverteilung des Leistungsmaßes führen würde. In meiner Anwendung kann ich dies jedoch aufgrund von Ressourcenproblemen nicht tun.
Ich erinnere mich düster daran, dass dieser Trick des "Ummischens" von jemandem verwendet wurde, um die Tendenz einer einmaligen Kreuzvalidierung (in einigen Situationen) zu untersuchen. Ich weiß jedoch nicht, ob er sich in meiner Situation befand, in der er den gesamten Vorgang nur einmal wiederholen konnte.
Ein Beispiel in R, das die "Kraft" der naiven Rückwärtsauswahl zeigt:
# Generate random data set. Only random performance is expected.
n <- 100
p <- 30
set.seed(7567)
y <- rnorm(n)
X <- rnorm(n*p)
dim(X) <- c(n, p)
data <- data.frame(y, X)
# Modelling technique: backward selection with OLS
T <- function(data) {
step(lm(y ~ ., data = data), trace = 0)
}
# Performance: R-squared
P <- function(fit) {
summary(fit)$r.squared
}
# Step 1: Compute performance on original data. Happily publish high R-squared...
P(T(data)) # 0.240405
# Step 2: Your mean colleague reshuffles response and gets also R-squared far away from 0
data$y <- data$y[sample(n)]
P(T(data)) # 0.1925726
Schlussfolgerung zum Beispiel: Die gewählte Modellierungstechnik ist zumindest in dieser speziellen Umgebung äußerst anfällig für Überanpassungen.
Einige Hintergrundinformationen
Ich habe diesen Trick zum Ummischen einmal verwendet, um zu überprüfen, ob die Kreuzvalidierung eines langwierigen Modellierungsprozesses von mir ordnungsgemäß implementiert wurde. Unter einer zufälligen Permutation ergab CV ein R-Quadrat von im wesentlichen 0 (wie erwartet / gewünscht).