Verwirrung im Zusammenhang mit der Datennormalisierung


9

Ich versuche ein lineares Regressionsmodell zu lernen. Ich habe jedoch einige Verwirrung in Bezug auf die Normalisierung der Daten. Ich habe die Merkmale / Prädiktoren auf den Mittelwert Null und die Einheitsvarianz normalisiert. Muss ich dasselbe für das Ziel tun? Wenn ja warum?


1
Warum haben Sie die Funktionen / Prädiktoren normalisiert?
Peter Flom - Reinstate Monica

4
Übrigens denke ich, dass "Standardisieren" ein besserer Begriff dafür ist.
Scortchi - Monica wieder einsetzen

Antworten:


6

Das Normalisieren des Ziels in linearer Regression spielt keine Rolle. In der linearen Regression, wird Ihr Sitz der Form y i = ein 0 + a x i . Wenn Sie Prädiktoren x i zentriert sind, ist der konstante Term a 0 immer der Mittelwert von y i . Wenn Sie also das y i zentrieren, bevor Sie eine Regression ausführen, erhalten Sie nur eine 0 = 0 , aber alle anderen Koeffizienten bleiben unverändert.

y^ich=ein0+einxich.
xichein0yichyichein0=0

(Abgesehen davon ist es eine gute Idee, die Prädiktoren zu normalisieren - so wie Sie es gerade tun.)


1
Warum ist es eine gute Idee, die Prädiktoren zu normalisieren?
Scortchi - Monica wieder einsetzen

ein0

2
@Scortchi Das Normalisieren der Prädiktoren ist nicht erforderlich, kann jedoch die Interpretation der Koeffizienten aus der Regression erleichtern: Nach der Normalisierung entsprechen große Koeffizienten wichtigen Prädiktoren. Auch ohne Normalisierung können die Koeffizienten der Interaktionsterme ernsthaft irreführend sein. Die Normalisierung wirkt sich jedoch nicht auf die Vorhersagen aus, die Sie von Ihrem Modell erhalten. Daher ist die Normalisierung nur dann von Bedeutung, wenn Sie die Koeffizienten in der Regression interpretieren möchten.
Stefan Wager

1
@ user34790 Die Mathematik wird unter pmean.com/10/LeastSquares.html ausgearbeitet
Stefan Wager

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.