Verschiebungs- / Skalierungsvariablen haben keinen Einfluss auf ihre Korrelation mit der Antwort
Um zu sehen , warum dies der Fall ist, an , dass die Korrelation zwischen und ist . Dann wird die Korrelation zwischen und istYXρY(X−a)/b
cov(Y,(X−a)/b)SD((X−a)/b)⋅SD(Y)=cov(Y,X/b)SD(X/b)⋅SD(Y)=1b⋅cov(Y,X)1bSD(X)⋅SD(Y)=ρ
was sich aus der Definition der Korrelation und drei Tatsachen ergibt :
cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)
cov(Y,aX)=acov(Y,X)
SD(aX)=a⋅SD(X)
Daher in Bezug auf die Modellanpassung (zB oder die angepassten Werte), Verschieben oder Ihre Variablen Skalierung (zB sie im gleichen Maßstab setzen) wird das Modell nicht verändertR2 , da lineare Regressionskoeffizienten auf die Korrelationen zwischen Variablen in Beziehung stehen. Die Skala Ihrer Regressionskoeffizienten wird nur geändert. Dies sollte bei der Interpretation der Ausgabe berücksichtigt werden, wenn Sie Ihre Prädiktoren transformieren.
Bearbeiten: Das oben Gesagte hat angenommen, dass Sie über gewöhnliche Regression mit dem Achsenabschnitt sprechen . Noch ein paar Punkte dazu (danke @cardinal):
Der Achsenabschnitt kann sich ändern, wenn Sie Ihre Variablen transformieren, und wie @cardinal in den Kommentaren hervorhebt, ändern sich die Koeffizienten, wenn Sie Ihre Variablen verschieben, wenn Sie den Achsenabschnitt aus dem Modell weglassen, obwohl ich davon ausgehe, dass Sie dies nur tun, wenn Sie dies getan haben ein guter Grund (siehe zB diese Antwort ).
Wenn Sie Ihre Koeffizienten auf irgendeine Weise regulieren (z. B. Lasso, Gratregression), wirkt sich die Zentrierung / Skalierung auf die Anpassung aus. Wenn Sie beispielsweise (die Ridge-Regressionsstrafe) bestrafen , können Sie nach der Standardisierung keine äquivalente Anpassung wiederherstellen, es sei denn, alle Variablen waren an erster Stelle auf derselben Skala, d. H. Es gibt kein konstantes Vielfaches, das dieselbe Strafe zurückerhält.∑β2i
In Bezug darauf, wann / warum ein Forscher Prädiktoren transformieren möchte
Ein häufiger Umstand (in der nachfolgenden Antwort von @Paul erörtert) ist, dass Forscher ihre Prädiktoren so standardisieren , dass alle Koeffizienten auf derselben Skala liegen. In diesem Fall kann die Größe der Punktschätzungen eine grobe Vorstellung davon geben, welche Prädiktoren den größten Effekt haben, sobald die numerische Größe des Prädiktors standardisiert wurde.
Ein weiterer Grund, warum ein Forscher sehr große Variablen skalieren möchte, besteht darin, dass die Regressionskoeffizienten nicht extrem klein sind. Wenn Sie beispielsweise den Einfluss der Bevölkerungsgröße eines Landes auf die Kriminalitätsrate untersuchen möchten (Sie könnten sich kein besseres Beispiel vorstellen), möchten Sie möglicherweise die Bevölkerungsgröße in Millionen anstatt in ihren ursprünglichen Einheiten messen , da der Koeffizient kann so etwas wie ..00000001