Vielleicht möchten Sie Ihre Koeffizienten interpretieren. Das heißt, in der Lage zu sein, Dinge wie "wenn ich meine Variable um 1 erhöhe , dann sollte Y im Durchschnitt und bei allen anderen gleichen Werten um β 1 zunehmen ".X1Y.β1
Damit Ihre Koeffizienten interpretierbar sind, setzt die lineare Regression eine Reihe von Dingen voraus.
Eines dieser Dinge ist keine Multikollinearität. Das heißt, Ihre Variablen sollten nicht miteinander korreliert werden.X
Ein anderes ist Homoskedastizität . Die Fehler, die Ihr Modell festlegt, sollten die gleiche Varianz haben, dh Sie sollten sicherstellen, dass die lineare Regression keine kleinen Fehler für niedrige Werte von und große Fehler für höhere Werte von X verursacht . Mit anderen Worten, der Unterschied zwischen dem, was man vorhersagen , Y und die wahren Werte Y sollte konstant sein. Sie können dies sicherstellen, indem Sie sicherstellen, dass Y einer Gaußschen Verteilung folgt. (Der Beweis ist sehr mathematisch.)XXY.^Y.Y.
Abhängig von Ihren Daten können Sie diese möglicherweise als Gauß-Daten definieren. Typische Transformationen sind Inverse, Logarithmus oder Quadratwurzeln. Natürlich gibt es viele andere, alles hängt von Ihren Daten ab. Sie müssen sich Ihre Daten ansehen und dann ein Histogramm erstellen oder einen Normalitätstest wie den Shapiro-Wilk-Test durchführen.
Dies sind alles Techniken, um einen unvoreingenommenen Schätzer zu erstellen . Ich denke nicht, dass dies etwas mit Konvergenz zu tun hat, wie andere gesagt haben (manchmal möchten Sie vielleicht auch Ihre Daten normalisieren, aber das ist ein anderes Thema).
Das Befolgen der linearen Regressionsannahmen ist wichtig, wenn Sie die Koeffizienten interpretieren oder statistische Tests in Ihrem Modell verwenden möchten. Ansonsten vergiss es.
Die Anwendung des Logarithmus oder Ihre Daten zu normalisieren, ist auch wichtig , weil die lineare Regression Optimierungsalgorithmen typischerweise minimieren ∥ y^- y∥2ynormalize