Lineare Regression und Skalierung von Daten


10

Das folgende Diagramm zeigt Koeffizienten, die mit linearer Regression erhalten wurden (mit mpgals Zielvariable und allen anderen als Prädiktoren).

Für mtcars-Dataset ( hier und hier ) mit und ohne Skalierung der Daten:

Geben Sie hier die Bildbeschreibung ein

Wie interpretiere ich diese Ergebnisse? Die Variablen hpund dispsind nur dann von Bedeutung, wenn die Daten skaliert sind. Sind amund qsecgleich wichtig oder ist amwichtiger als qsec? Von welcher Variablen sind wichtige Determinanten mpg?

Vielen Dank für Ihren Einblick.


Wenn es Ihnen nichts ausmacht, können Sie nur ein paar verschiedene Modelle ausführen und überprüfen, welche Funktionen tatsächlich wichtig sind? Die Skalierung von Daten erfolgt, wenn wir wirklich sehr unterschiedliche Skalierungen für verschiedene Spalten haben und diese sich stark von Ihrem Diagramm unterscheiden (schöne Diagramme). Es ist ziemlich klar, dass die Skalierung dem Modell geholfen hat, die tatsächlichen I-Anblicke über die Daten zu finden, wie ohne Skalierung Modell hat keine andere Wahl, als der Variablen mit großen Maßstäben mehr Gewicht zu geben, vorausgesetzt, was Sie vorhersagen, ist auch eine etwas hohe Zahl.
Aditya

Vielen Dank für Ihren Kommentar zur Handlung. Ich bin mir nicht sicher, was Sie unter "wenige verschiedene Modelle ausführen" verstehen. Können Sie herausfinden, welche Merkmale mit einigen anderen Techniken wie dem neuronalen Netzwerk wirklich wichtig sind, damit Sie sie mit den Ergebnissen der linearen Regression vergleichen können?
Rnso

Es tut mir leid, dass ich unklar bin. Ich wollte verschiedene ml-Algorithmen wie baumbasiert usw. ausprobieren und alle ihre Funktionen vergleichen. Wichtigkeiten.
Aditya

Antworten:


4

Die Tatsache, dass die Koeffizienten von hp und disp niedrig sind, wenn Daten nicht skaliert sind, und hoch, wenn Daten skaliert sind, bedeutet, dass diese Variablen zur Erklärung der abhängigen Variablen beitragen, ihre Größe jedoch groß ist, sodass die Koeffizienten im nicht skalierten Fall niedrig sein müssen.

In Bezug auf "Wichtigkeit" würde ich sagen, dass der Absolutwert der Koeffizienten im skalierten Fall ein gutes Maß für die Wichtigkeit ist, mehr als im nicht skalierten Fall, da dort auch die Größe der Variablen relevant ist und sollte nicht.

Natürlich ist die wichtigere Variable wt.


4

Ohne Standardfehler kann man in diesem Fall nicht wirklich über die Bedeutung sprechen. Sie skalieren mit den Variablen und Koeffizienten. Ferner ist jeder Koeffizient von den anderen Variablen im Modell abhängig, und die Kollinearität scheint tatsächlich die Bedeutung von HP und Disp zu erhöhen.

Das Neuskalieren von Variablen sollte die Bedeutung der Ergebnisse überhaupt nicht ändern. In der Tat hatte jede Koeffizientenschätzung (mit Ausnahme der Konstante) genau den gleichen t-stat wie vor der Skalierung und die Regression, wenn ich die Regression erneut durchführte (mit den Variablen wie sie ist und durch Subtrahieren des Mittelwerts und Division durch die Standardfehler normalisiert wurde) Der F-Test von Gesamtsignifikanz blieb genau gleich.

Das heißt, selbst wenn alle Variablen so skaliert wurden, dass sie einen Mittelwert von Null und eine Varianz von 1 haben, gibt es keine einheitliche Größe des Standardfehlers für jeden der Regressionskoeffizienten. Betrachten Sie also nur die Größe jedes Koeffizienten in der Eine standardisierte Regression ist immer noch irreführend in Bezug auf die Bedeutung.

Wie David Masip erklärte, hat die scheinbare Größe der Koeffizienten eine umgekehrte Beziehung zur Größe der Datenpunkte. Aber selbst wenn die Koeffizienten für disp und hp sehr groß sind, unterscheiden sie sich nicht wesentlich von Null.

Tatsächlich sind HP und Disp stark korreliert, r = 0,79, so dass die Standardfehler bei diesen Koeffizienten im Verhältnis zur Koeffizientengröße besonders hoch sind, weil sie so kollinear sind. In dieser Regression machen sie ein seltsames Gegengewicht, weshalb man einen positiven und einen negativen Koeffizienten hat; es scheint ein Fall von Überanpassung zu sein und scheint nicht sinnvoll zu sein.

Ein guter Weg, um zu sehen, welche Variablen die größte Variation in mpg erklären, ist das (angepasste) R-Quadrat. Es ist buchstäblich der Prozentsatz der Variation in y, der durch die Variation in den x-Variablen erklärt wird. (Das angepasste R-Quadrat enthält eine leichte Strafe für jede zusätzliche x-Variable in der Gleichung, um eine Überanpassung auszugleichen.)

Eine gute Möglichkeit, um zu sehen, was im Lichte der anderen Variablen wichtig ist, besteht darin, die Änderung des angepassten R-Quadrats zu betrachten, wenn Sie diese Variable aus der Regression herausnehmen. Diese Änderung ist der Prozentsatz der Varianz in der abhängigen Variablen, den dieser Faktor erklärt, nachdem die anderen Variablen konstant gehalten wurden. (Formal können Sie mit einem F-Test testen, ob die ausgelassenen Variablen von Bedeutung sind. So funktionieren schrittweise Regressionen für die Variablenauswahl.)

Um dies zu veranschaulichen, habe ich einzelne lineare Regressionen für jede der Variablen separat ausgeführt und mpg vorhergesagt. Die Variable wt allein erklärt 75,3% der Variation in mpg, und keine einzelne Variable erklärt mehr. Viele andere Variablen sind jedoch mit wt korreliert und erklären einige dieser Variationen. (Ich habe robuste Standardfehler verwendet, die zu geringfügigen Unterschieden bei den Standardfehler- und Signifikanzberechnungen führen können, jedoch keine Auswirkungen auf die Koeffizienten oder das R-Quadrat haben.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Wenn alle Variablen zusammen vorhanden sind, beträgt das R-Quadrat 0,869 und das angepasste R-Quadrat 0,807. Wenn Sie also 9 weitere Variablen einfügen, um wt zu verbinden, werden nur weitere 11% der Variation erklärt (oder nur 5% mehr, wenn wir die Überanpassung korrigieren). (Viele der Variablen erklärten einige der gleichen Variationen in mpg wie wt.) Und in diesem vollständigen Modell ist der einzige Koeffizient mit einem p-Wert unter 20% wt bei p = 0,089.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.