gungs answer ist meiner Ansicht nach eine Kritik an der Idee, die relative Stärke verschiedener Variablen in empirischen Analysen zu vergleichen, ohne ein Modell zu berücksichtigen, wie diese Variablen interagieren oder wie die (wahre) gemeinsame Verteilung aller relevanten Variablen aussieht. Denken Sie an das Beispiel für die Wichtigkeit der Erwähnung von Größe und Gewicht des Athleten. Niemand kann beweisen, dass beispielsweise eine additive lineare Regression eine gute Annäherung an die bedingte Erwartungsfunktion darstellt, oder mit anderen Worten, Größe und Gewicht können auf sehr komplizierte Weise für die Leistung des Athleten wichtig sein. Sie können eine lineare Regression mit beiden Variablen ausführen und die standardisierten Koeffizienten vergleichen, wissen jedoch nicht, ob die Ergebnisse wirklich sinnvoll sind.
Um ein Mickey-Mouse-Beispiel zu geben, das sich mit Sportkletterern (meinen Lieblingssportarten) befasst, finden Sie hier eine Liste der besten männlichen Kletterer nach Leistungsmaßstäben auf der Website 8a.nu mit Informationen zu Größe, Gewicht und Geburtsjahr (nur diese) mit verfügbaren Informationen). Wir standardisieren alle Variablen im Voraus, damit wir die Zuordnung zwischen einer Standardabweichungsänderung in den Prädiktoren und einer Standardabweichungsänderung in der Leistungsverteilung direkt vergleichen können. Mit Ausnahme der Nummer eins, Adam Ondra, der ungewöhnlich groß ist, erhalten wir das folgende Ergebnis. ::
rm(list=ls(all=TRUE))
# Show only two decimal places
options(digits=2)
# Read Data and attach
climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
head(climber)
# Drop best climber Adam Ondra who is very tall (kind of outlier)
climber<-subset(climber,name!="Adam Ondra")
# Standardize Predictors
climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
# Simple Regression, excluding intercept because of the standardization
lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std
-0.16 -0.25
Wenn man Standardfehler usw. überhaupt ignoriert, scheint das Gewicht wichtiger als die Größe oder gleich wichtig zu sein. Man könnte aber argumentieren, dass Kletterer mit der Zeit besser geworden sind. Vielleicht sollten wir Kohorteneffekte kontrollieren, z. B. Trainingsmöglichkeiten durch bessere Inneneinrichtungen? Lassen Sie uns das Geburtsjahr angeben!
# Add year of birth
lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std born_std
-0.293 -0.076 0.256
Jetzt finden wir, dass es wichtiger ist, jung und klein zu sein, als schlank zu sein. Aber jetzt könnte eine andere Person argumentieren, dass dies nur für Top-Kletterer gilt? Es könnte sinnvoll sein, die standardisierten Koeffizienten über die gesamte Leistungsverteilung zu vergleichen (z. B. über Quantilregression). Und natürlich kann es für Klettererinnen, die viel kleiner und schlanker sind, anders sein. Niemand weiß.
Dies ist ein Mickey-Mouse-Beispiel für das, worauf sich Gung meiner Meinung nach bezieht. Ich bin nicht so skeptisch, ich denke, es kann sinnvoll sein, standardisierte Koeffizienten zu betrachten, wenn Sie der Meinung sind, dass Sie das richtige Modell angegeben haben oder dass eine additive Trennbarkeit sinnvoll ist. Dies hängt aber wie so oft von der jeweiligen Frage ab.
Zu den anderen Fragen:
Entspricht dies der Aussage, dass wir keine standardisierten Koeffizienten verwenden sollten, um die Wichtigkeit zu bewerten, da wir möglicherweise einen eingeschränkten Bereich von X1-Werten und einen größeren Bereich von X2-Werten zufällig ausgewählt haben? Wenn wir dann dieses Problem standardisieren, ist es nicht verschwunden und wir denken fälschlicherweise, dass X1 ein schwächerer Prädiktor als X2 ist?
Ja, das könnte man so sagen. Der "größere Bereich von X2-Werten" könnte durch Weglassen der variablen Vorspannung entstehen, indem wichtige Variablen, die mit X1 korreliert sind, eingeschlossen werden, aber diejenigen weggelassen werden, die mit X2 korreliert sind.
Warum verschwindet das Problem, wenn das wahre r genau 0 ist?
r
Wie beseitigen andere Methoden (z. B. die Betrachtung semipartialer Koeffizienten) dieses Problem?
Andere Modelle wie semipartielle Koeffizienten haben das gleiche Problem. Wenn Ihr Datensatz groß genug ist, können Sie beispielsweise eine nichtparametrische Regression durchführen und versuchen, die vollständige Gelenkverteilung ohne Annahmen über die funktionale Form (z. B. additive Trennbarkeit) zu schätzen, um zu rechtfertigen, was Sie tun. Dies ist jedoch niemals ein Beweis.
Zusammenfassend kann ich sagen, dass es sinnvoll sein kann, standardisierte oder semipartielle Koeffizienten zu vergleichen, aber es hängt davon ab, und Sie müssen sich selbst oder andere überlegen, warum Sie dies für sinnvoll halten.