Überhaupt nicht. Die Größe der Koeffizienten hängt direkt von den für die Variablen gewählten Maßstäben ab, was eine etwas willkürliche Modellierungsentscheidung ist.
Betrachten Sie dazu ein lineares Regressionsmodell, das die Blütenblattbreite einer Iris (in Zentimetern) anhand ihrer Blütenblattlänge (in Zentimetern) vorhersagt:
summary(lm(Petal.Width~Petal.Length, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.363076 0.039762 -9.131 4.7e-16 ***
# Petal.Length 0.415755 0.009582 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
Unser Modell erreicht einen angepassten R ^ 2-Wert von 0,9266 und weist der Variablen Petal.Length den Koeffizientenwert 0,415755 zu.
Die Wahl, Petal.Length in Zentimetern zu definieren, war jedoch ziemlich willkürlich, und wir hätten stattdessen die Variable in Metern definieren können:
iris$Petal.Length.Meters <- iris$Petal.Length / 100
summary(lm(Petal.Width~Petal.Length.Meters, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length.Meters, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.36308 0.03976 -9.131 4.7e-16 ***
# Petal.Length.Meters 41.57554 0.95824 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
Dies hat natürlich keine wirklichen Auswirkungen auf das angepasste Modell. Wir haben Petal.Length.Meters (41.57554) einfach einen 100-fach größeren Koeffizienten zugewiesen als Petal.Length (0.415755). Alle anderen Eigenschaften des Modells (angepasste R ^ 2, t-Statistiken, p-Werte usw.) sind identisch.
Im Allgemeinen werden beim Anpassen von regulierten linearen Modellen zunächst Variablen normalisiert (z. B. mit Mittelwert 0 und Einheitsvarianz), um zu vermeiden, dass einige Variablen aufgrund der ausgewählten Skalen anderen vorgezogen werden.
Angenommen, normalisierte Daten
Auch wenn Sie alle Variablen normalisiert haben, sind Variablen mit höheren Koeffizienten für Vorhersagen möglicherweise nicht so nützlich, da die unabhängigen Variablen nur selten festgelegt werden (geringe Varianz). Betrachten Sie als Beispiel einen Datensatz, bei dem die abhängige Variable Z und die unabhängigen Variablen X und Y Binärwerte annehmen
set.seed(144)
dat <- data.frame(X=rep(c(0, 1), each=50000),
Y=rep(c(0, 1), c(1000, 99000)))
dat$Z <- dat$X + 2*dat$Y + rnorm(100000)
Konstruktionsbedingt ist der Koeffizient für Y ungefähr doppelt so groß wie der Koeffizient für X, wenn beide verwendet werden, um Z über eine lineare Regression vorherzusagen:
summary(lm(Z~X+Y, data=dat))
# Call:
# lm(formula = Z ~ X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.4991 -0.6749 -0.0056 0.6723 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.094793 0.031598 -3.00 0.0027 **
# X 0.999435 0.006352 157.35 <2e-16 ***
# Y 2.099410 0.031919 65.77 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.9992 on 99997 degrees of freedom
# Multiple R-squared: 0.2394, Adjusted R-squared: 0.2394
# F-statistic: 1.574e+04 on 2 and 99997 DF, p-value: < 2.2e-16
Dennoch erklärt X mehr die Varianz in Z als in Y (das lineare Regressionsmodell, das Z mit X vorhersagt, hat einen R ^ 2-Wert von 0,2065, während das lineare Regressionsmodell, das Z mit Y vorhersagt, einen R ^ 2-Wert von 0,0511 hat):
summary(lm(Z~X, data=dat))
# Call:
# lm(formula = Z ~ X, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.2587 -0.6759 0.0038 0.6842 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.962629 0.004564 430.0 <2e-16 ***
# X 1.041424 0.006455 161.3 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.021 on 99998 degrees of freedom
# Multiple R-squared: 0.2065, Adjusted R-squared: 0.2065
# F-statistic: 2.603e+04 on 1 and 99998 DF, p-value: < 2.2e-16
gegen:
summary(lm(Z~Y, data=dat))
# Call:
# lm(formula = Z ~ Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.0038 -0.7638 -0.0007 0.7610 5.2288
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.09479 0.03529 -2.686 0.00724 **
# Y 2.60418 0.03547 73.416 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.116 on 99998 degrees of freedom
# Multiple R-squared: 0.05114, Adjusted R-squared: 0.05113
# F-statistic: 5390 on 1 and 99998 DF, p-value: < 2.2e-16
Der Fall der Multi-Kollinearität
Ein dritter Fall, in dem große Koeffizientenwerte täuschen könnten, wäre der Fall einer signifikanten Multi-Kollinearität zwischen Variablen. Betrachten Sie als Beispiel einen Datensatz, bei dem X und Y stark korreliert sind, W jedoch nicht stark mit den beiden anderen korreliert ist. Wir versuchen, Z vorherzusagen:
set.seed(144)
dat <- data.frame(W=rnorm(100000),
X=rnorm(100000))
dat$Y <- dat$X + rnorm(100000, 0, 0.001)
dat$Z <- 2*dat$W+10*dat$X-11*dat$Y + rnorm(100000)
cor(dat)
# W X Y Z
# W 1.000000e+00 5.191809e-05 5.200434e-05 0.8161636
# X 5.191809e-05 1.000000e+00 9.999995e-01 -0.4079183
# Y 5.200434e-05 9.999995e-01 1.000000e+00 -0.4079246
# Z 8.161636e-01 -4.079183e-01 -4.079246e-01 1.0000000
Diese Variablen haben so ziemlich den gleichen Mittelwert (0) und die gleiche Varianz (~ 1), und die lineare Regression weist X (ungefähr 15) und Y (ungefähr -16) viel höhere Koeffizientenwerte zu als W (ungefähr -16). ungefähr 2):
summary(lm(Z~W+X+Y, data=dat))
# Call:
# lm(formula = Z ~ W + X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.1886 -0.6760 0.0026 0.6679 4.2232
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.831e-04 3.170e-03 0.058 0.954
# W 2.001e+00 3.172e-03 630.811 < 2e-16 ***
# X 1.509e+01 3.177e+00 4.748 2.05e-06 ***
# Y -1.609e+01 3.177e+00 -5.063 4.13e-07 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.002 on 99996 degrees of freedom
# Multiple R-squared: 0.8326, Adjusted R-squared: 0.8326
# F-statistic: 1.658e+05 on 3 and 99996 DF, p-value: < 2.2e-16
Dennoch ist unter den drei Variablen im Modell W die wichtigste: Wenn Sie W aus dem vollständigen Modell entfernen, sinkt der R ^ 2-Wert von 0,833 auf 0,166, während der R ^ 2-Wert praktisch unverändert bleibt, wenn Sie X oder Y fallen lassen.