Einige meiner Prädiktoren haben sehr unterschiedliche Maßstäbe. Muss ich sie transformieren, bevor ich ein lineares Regressionsmodell anpasse?

Ich möchte eine lineare Regression über einen mehrdimensionalen Datensatz ausführen. Es gibt Unterschiede zwischen verschiedenen Dimensionen hinsichtlich ihrer Größenordnung. Beispielsweise hat Dimension 1 im Allgemeinen einen Wertebereich von [0, 1] und Dimension 2 einen Wertebereich von [0, 1000].

Muss ich eine Transformation durchführen, um sicherzustellen, dass die Datenbereiche für verschiedene Dimensionen im gleichen Maßstab liegen? Wenn ja, gibt es eine Anleitung für diese Art der Transformation?

regression multiple-regression linear-model

— Bit-Frage
quelle

Antworten:

Verschiebungs- / Skalierungsvariablen haben keinen Einfluss auf ihre Korrelation mit der Antwort

Um zu sehen , warum dies der Fall ist, an , dass die Korrelation zwischen und ist . Dann wird die Korrelation zwischen und ist $Y$ $X$ $\rho$ $Y$ $(X-a)/b$

\frac{c o v (Y, (X - a) / b)}{S D ((X - a) / b) \cdot S D (Y)} = \frac{c o v (Y, X / b)}{S D (X / b) \cdot S D (Y)} = \frac{\frac{1}{b} \cdot c o v (Y, X)}{\frac{1}{b} S D (X) \cdot S D (Y)} = ρ

$\frac{ {\rm cov}(Y,(X-a)/b) }{ {\rm SD}((X-a)/b) \cdot {\rm SD}(Y) } = \frac{ {\rm cov}(Y,X/b) }{ {\rm SD}(X/b) \cdot {\rm SD}(Y) } = \frac{ \frac{1}{b} \cdot {\rm cov}(Y,X) }{ \frac{1}{b}{\rm SD}(X) \cdot {\rm SD}(Y) } = \rho$

was sich aus der Definition der Korrelation und drei Tatsachen ergibt :

${\rm cov}(Y, X+a) = {\rm cov}(Y,X) + \underbrace{{\rm cov}(Y,a)}_{=0} = {\rm cov}(Y,X)$
${\rm cov}(Y,aX) = a {\rm cov}(Y,X)$
${\rm SD}(aX) = a \cdot {\rm SD}(X)$

Daher in Bezug auf die Modellanpassung (zB oder die angepassten Werte), Verschieben oder Ihre Variablen Skalierung (zB sie im gleichen Maßstab setzen) wird das Modell nicht verändert $R^2$ , da lineare Regressionskoeffizienten auf die Korrelationen zwischen Variablen in Beziehung stehen. Die Skala Ihrer Regressionskoeffizienten wird nur geändert. Dies sollte bei der Interpretation der Ausgabe berücksichtigt werden, wenn Sie Ihre Prädiktoren transformieren.

Bearbeiten: Das oben Gesagte hat angenommen, dass Sie über gewöhnliche Regression mit dem Achsenabschnitt sprechen . Noch ein paar Punkte dazu (danke @cardinal):

Der Achsenabschnitt kann sich ändern, wenn Sie Ihre Variablen transformieren, und wie @cardinal in den Kommentaren hervorhebt, ändern sich die Koeffizienten, wenn Sie Ihre Variablen verschieben, wenn Sie den Achsenabschnitt aus dem Modell weglassen, obwohl ich davon ausgehe, dass Sie dies nur tun, wenn Sie dies getan haben ein guter Grund (siehe zB diese Antwort ).
Wenn Sie Ihre Koeffizienten auf irgendeine Weise regulieren (z. B. Lasso, Gratregression), wirkt sich die Zentrierung / Skalierung auf die Anpassung aus. Wenn Sie beispielsweise (die Ridge-Regressionsstrafe) bestrafen , können Sie nach der Standardisierung keine äquivalente Anpassung wiederherstellen, es sei denn, alle Variablen waren an erster Stelle auf derselben Skala, d. H. Es gibt kein konstantes Vielfaches, das dieselbe Strafe zurückerhält. $\sum \beta_{i}^{2}$

In Bezug darauf, wann / warum ein Forscher Prädiktoren transformieren möchte

Ein häufiger Umstand (in der nachfolgenden Antwort von @Paul erörtert) ist, dass Forscher ihre Prädiktoren so standardisieren , dass alle Koeffizienten auf derselben Skala liegen. In diesem Fall kann die Größe der Punktschätzungen eine grobe Vorstellung davon geben, welche Prädiktoren den größten Effekt haben, sobald die numerische Größe des Prädiktors standardisiert wurde.

Ein weiterer Grund, warum ein Forscher sehr große Variablen skalieren möchte, besteht darin, dass die Regressionskoeffizienten nicht extrem klein sind. Wenn Sie beispielsweise den Einfluss der Bevölkerungsgröße eines Landes auf die Kriminalitätsrate untersuchen möchten (Sie könnten sich kein besseres Beispiel vorstellen), möchten Sie möglicherweise die Bevölkerungsgröße in Millionen anstatt in ihren ursprünglichen Einheiten messen , da der Koeffizient kann so etwas wie . $.00000001$

— Makro
quelle

Zwei kurze Bemerkungen: Während der Beginn der Post richtig ist, es fehlt die Tatsache , dass Zentrierung wird einen Einfluss, wenn ein Schnittpunkt vorhanden ist. :) Zweitens hat das Zentrieren und Neuskalieren wichtige Auswirkungen, wenn die Regularisierung verwendet wird. Obwohl das OP dies möglicherweise nicht berücksichtigt, ist es wahrscheinlich immer noch ein nützlicher Punkt, den Sie berücksichtigen sollten.

— Kardinal

Die Invarianz zur Neuskalierung ist auch leicht zu erkennen, wenn man mit der Matrixnotation vertraut ist. Mit voller Rang (der Einfachheit halber) ist . Wenn wir nun durch ersetzen, wobei diagonal ist, erhalten wir

X

$X$

\hat{y} = X (X^{'} X)^{- 1} X^{'} y

$\hat y = X (X'X)^{-1} X'y$

X

$X$

X D

$X D$

D

$D$

\tilde{y} = (X D) ((X D)^{'} X D)^{- 1} (X D)^{'} y = X D (D X^{'} X D)^{- 1} D X^{'} y = X (X^{'} X)^{- 1} X^{'} y = \hat{y} .

$\tilde y = (X D) ((XD)'XD)^{-1} (XD)'y = X D(D X'X D)^{-1} D X'y = X (X'X)^{-1} X'y = \hat y\>.$

— Kardinal

@cardinal, ich habe beschlossen, die Tatsache zu erwähnen, dass Zentrierung / Skalierung Auswirkungen haben kann, wenn Ihre Schätzungen reguliert werden. Zuerst widersetzte ich mich, weil ich dachte, es würde ein langer Exkurs beginnen, der diejenigen verwirren könnte, die mit Regularisierung nicht vertraut sind, aber ich fand, dass ich ihn mit relativ wenig Platz angehen könnte. Danke

— Makro

Nicht alle meine Kommentare sollen unbedingt darauf hinweisen, dass die Antwort aktualisiert werden sollte. Oft möchte ich nur unter netten Antworten ergänzende Bemerkungen einfügen, um ein paar Gedanken zu verwandten Ideen zu machen, die für einen Passanten von Interesse sein könnten. (+1)

— Kardinal

Mit der Stimmenzählung ist etwas Ungewöhnliches los. Ich habe dies noch einmal positiv bewertet, als ich meinen früheren Kommentar abgegeben habe, und es hat nicht "gedauert". Hmm.

— Kardinal

Die sogenannte "Normalisierung" ist eine übliche Routine für die meisten Regressionsmethoden. Es gibt zwei Möglichkeiten:

Ordnen Sie jede Variable [-1, 1] Grenzen zu (mapminmax in MatLab.
Entfernen Sie den Mittelwert aus jeder Variablen und teilen Sie die Standardabweichung (mapstd in MatLab), dh "normalisieren". Wenn der tatsächliche Mittelwert einer Abweichung unbekannt ist, nehmen Sie einfach Beispielmerkmale: oder wobei , , und ${\tilde{X}}_{i j} = \frac{X_{i j} - μ_{i}}{σ_{i}}$ $\tilde{X}_{ij}=\frac{X_{ij}-\mu_i}{\sigma_i}$ ${\tilde{X}}_{i j} = \frac{X_{i j} - \bar{X_{i}}}{s t d (X_{i})}$ $\tilde{X}_{ij}=\frac{X_{ij} - \overline{X_i}}{std({X_i})}$ $E[X_i] = \mu$ $E[X_i^2-E[X_i]^2]=\sigma^2$ $\overline{X_i}=\frac{1}{N}\sum_{j=1}^{N}X_{ij}$ $std({X_i}) = \sqrt{\frac{1}{N}\sum_{j=1}^{N}(X_{ij}^2 -\overline{X_{i}}^2)}$

Da die lineare Regression sehr empfindlich auf die Variablenbereiche reagiert, würde ich generell empfehlen, alle Variablen zu normalisieren , wenn Sie keine Vorkenntnisse über die Abhängigkeit haben und erwarten, dass alle Variablen relativ wichtig sind.

Gleiches gilt für Antwortvariablen, obwohl dies für sie nicht sehr wichtig ist.

Warum Normalisierung oder Standardisierung? Meistens, um die relative Auswirkung verschiedener Variablen im Modell zu bestimmen. Dies kann erreicht werden, wenn sich alle Variablen in denselben Einheiten befinden.

Hoffe das hilft!

— Paul
quelle

Was meinen Sie, wenn Sie sagen, dass die lineare Regression sehr empfindlich auf die Variablenbereiche reagiert ? Für alle x1,x2,ydiese beiden Befehle: summary(lm(y~x1+x2))$r.sqund summary(lm(y~scale(x1)+scale(x2)))$r.sq- die Werte, wenn Sie die Koeffizienten nicht standardisieren, und wenn Sie dies tun - geben Sie denselben Wert an, der eine äquivalente Anpassung angibt.

R^{2}

$R^2$

— Makro

Ich war in der Formulierung nicht ganz richtig. Ich meinte das Narren. Die Regression wäre immer dieselbe (im Sinne von ), wenn Sie nur lineare Transformationen der Daten durchführen. Wenn Sie jedoch feststellen möchten, welche Variablen kritisch und welche fast verrauscht sind, spielt die Skalierung eine Rolle. Es ist nur praktisch, Variablen zu standardisieren und ihre ursprünglichen Skalen zu vergessen. Regression ist also "sensibel" im Hinblick auf das Verständnis der relativen Auswirkungen.

R^{2}

$\mathbf{R^2}$

— Paul

Vielen Dank für die Klarstellung, aber welche Variablen kritisch und welche fast verrauscht sind, hängt oft vom Wert ab, der sich auch beim Standardisieren nicht ändert (außer natürlich dem Achsenabschnitt ). Ich stimme Ihrem Standpunkt zu, dass es eine bessere Interpretation der Rohkoeffizientenschätzungen bietet.

p

$p$

— Makro