Ungleichgewicht ist nicht unbedingt ein Problem, aber wie Sie dorthin gelangen, kann es sein. Es ist nicht sinnvoll, Ihre Stichprobenstrategie auf die Zielvariable abzustützen. Da diese Variable die Zufälligkeit in Ihr Regressionsmodell einbezieht, werden Sie große Probleme haben, irgendeine Art von Inferenz zu erstellen, wenn Sie darauf aufbauen. Ich bezweifle, dass es möglich ist, diese Probleme "rückgängig zu machen".
Sie können basierend auf den Prädiktorvariablen zu Recht eine Über- oder Untererhebung durchführen . In diesem Fall, vorausgesetzt, Sie überprüfen sorgfältig, ob die Modellannahmen gültig scheinen (z. B. Homoskedastizität, die in dieser Situation als wichtig erachtet wird, wenn Sie eine "normale" Regression mit den üblichen Annahmen haben), glaube ich, dass Sie dies nicht tun müssen machen Sie das Oversampling bei der Vorhersage rückgängig. Ihr Fall ähnelt nun einem Analysten, der ein Experiment explizit so entworfen hat, dass die Prädiktorvariablen einen ausgeglichenen Bereich aufweisen.
Bearbeiten - Hinzufügen - Erweitern, warum es schlecht ist, anhand von Y zu sampeln
Beim Anpassen des Standardregressionsmodells wird erwartet, dass das normal verteilt ist, einen Mittelwert von Null hat und unabhängig und identisch verteilt ist. Wenn Sie Ihre Stichprobe auf der Grundlage des Werts von y (der sowohl einen Beitrag von als auch von ) auswählen, hat das e keinen Mittelwert mehr von Null oder ist identisch verteilt. Beispielsweise ist es weniger wahrscheinlich, dass niedrige Werte von y ausgewählt werden, die sehr niedrige Werte von e enthalten können. Dies ruiniert jegliche Schlussfolgerung, die auf den üblichen Mitteln zur Anpassung solcher Modelle beruht. Korrekturen können ähnlich wie in der Ökonometrie für die Anpassung abgeschnittener Modelle vorgenommen werden, sind jedoch schmerzhaft und erfordern zusätzliche Annahmen und sollten nur angewendet werden, wenn es keine Alternative gibt.y= Xb + eeeXb
Betrachten Sie die extreme Abbildung unten. Wenn Sie Ihre Daten auf einen beliebigen Wert für die Antwortvariable kürzen, führen Sie sehr signifikante Verzerrungen ein. Wenn Sie es für eine erklärende Variable abschneiden, gibt es nicht unbedingt ein Problem. Sie sehen, dass die grüne Linie, basierend auf einer Teilmenge, die aufgrund ihrer Prädiktorwerte ausgewählt wurde, sehr nahe an der tatsächlichen angepassten Linie liegt. Dies kann nicht von der blauen Linie gesagt werden, die nur auf den blauen Punkten basiert.
Dies erstreckt sich auf den weniger schwerwiegenden Fall von Unter- oder Überabtastung (da das Abschneiden als Unterabtastung betrachtet werden kann, die auf ihr logisches Extrem gebracht wird).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")