Ridge Regression und Lasso Regression

Ich arbeite derzeit an diesem Problem und das Ziel ist es, ein lineares Regressionsmodell zu entwickeln, um mein Y (Blutdruck) mit 8 Prädiktoren unter Verwendung der Ridge & Lasso-Regression vorherzusagen . Ich beginne damit, die Bedeutung der einzelnen Prädiktoren zu untersuchen. Unten ist ein $summary()$ meiner multiplen linearen Regression mit $age100$ wie neu skaliert $age$ in einem ähnlichen Maßstab wie andere Prädiktoren sein.

Call:
lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ + 
fra)

Residuals:
Min      1Q  Median      3Q     Max 
-80.120 -17.019  -0.648  18.158 117.420 

Coefficients:
        Estimate Std. Error t value Pr(>|t|)    
(Intercept)  145.605      9.460  15.392  < 2e-16 ***
age100        -1.292     12.510  -0.103  0.91788    
sex            5.078      4.756   1.068  0.28701    
can           -1.186      8.181  -0.145  0.88486    
crn           14.545      7.971   1.825  0.06960 .  
inf          -13.660      4.745  -2.879  0.00444 ** 
cpr          -12.218      9.491  -1.287  0.19954    
typ          -11.457      5.880  -1.948  0.05283 .  
fra          -10.958      9.006  -1.217  0.22518    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 31.77 on 191 degrees of freedom
Multiple R-squared:  0.1078,    Adjusted R-squared:  0.07046 
F-statistic: 2.886 on 8 and 191 DF,  p-value: 0.004681

Einfach durch Betrachten der P-Werte aus dem $summary()$ Tisch habe ich ausgewählt $age100$ und $can$ als potenzielle "weniger wichtige" Prädiktoren. Ich habe dann verwendet $glmnet()$ Lassen Sie die Funktion a auswählen, um eine Ridge-Regression und eine Lasso-Regression von Y mit allen meinen X anzupassen $\lambda$ Wert für mich. Ich habe dann die beiden Regressionen mit 100 aufgezeichnet $\lambda$ Werte für Grat und 65 $\lambda$ Werte für Lasso. Fügen Sie schließlich Punkte hinzu, die über den Indizes 100 und 65 liegen und bei vertikalen Werten gezeichnet sind, die den Schätzungen der 8 kleinsten Quadrate der Koeffizienten (in rot) entsprechen.

Als Ergebnis der beiden obigen Diagramme wurden einige Unterschiede festgestellt

Es scheint mir vernünftig, dass Lasso zwei Variablen eliminiert hat ( $age100$ und $can$ ), was meiner vorherigen Annahme zuzustimmen scheint, diese beiden Prädiktoren als "weniger wichtige" zu haben. Beachten Sie, dass im Firstdiagramm die ersten und ungefähr dritten Schätzpunkte von der Linie abweichen. Im Lass-Plot befinden sich die Punkte jedoch direkt auf diesen Linien. Zeigt dies eine Verbesserung meiner Prädiktorreduktion von Grat zu Lasso an? (AKA, 6-Prädiktoren-Modell passt die Daten besser an als 8-Prädiktoren-Modell?)

Ich habe noch ein paar Fragen:

Sind die Gratregressionsschätzungen beim kleinsten λ-Wert genau die gleichen wie bei den Schätzungen der kleinsten Quadrate?
Wie sind diese beiden Handlungen zu interpretieren? (Was bedeutet das für die roten Endpunkte auf der Linie oder darüber oder darunter)?

multiple-regression lasso ridge-regression

— SirBanana
quelle

In Bezug auf Ihre zwei zusätzlichen Fragen die Interpretation der Diagramme und des Parameters

λ

$\lambda$ Antworten finden Sie an anderer Stelle auf dieser Website. 1) Antwort ist "Ja" ohne Strafe (

λ = 0

$\lambda=0$ ) Sie erhalten nur die OLS-Schätzung 2) Die Diagramme sind die geschätzten Koeffizienten als Funktion des Parameters

λ

$\lambda$ (Anscheinend steht 'lamda' oder 'lambda' geschrieben, aber ich denke, das ist falsch, es scheint, als ob die x-Achse die Norm ist oder so). In Bezug auf die Interpretation. 1thing: Für das Lasso sollten Sie die Zunahme der Anzahl von Nicht-Null-Komponenten beachten, wenn der x-Achsen-Parameter zunimmt.

— Sextus Empiricus

Für eine genauere Beschreibung der zweiten zusätzlichen Frage sollten Sie besser angeben, wie diese Diagramme erstellt wurden (der Code) und welche Art von Interpretation Sie suchen.

— Sextus Empiricus

Zeigt dies eine Verbesserung meiner Prädiktorreduktion von Grat zu Lasso an?

Nein, die Diagramme sagen nichts über die prädiktive Leistung aus. Wenn Sie dies schätzen möchten, können Sie die Kreuzvalidierung verwenden.

AKA, 6-Prädiktoren-Modell passt die Daten besser an als 8-Prädiktoren-Modell?

Im Vergleich zu gewöhnlichen kleinsten Quadraten (OLS) führen regulierte Methoden wie Lasso- und Ridge-Regression zu größeren oder gleichen Fehlern bei den Trainingsdaten. Wenn Sie jedoch an einer prädiktiven Leistung interessiert sind, ist Ihnen ein Fehler bei zukünftigen Daten wichtig, die von derselben zugrunde liegenden Verteilung generiert werden. Dies ist, was Kreuzvalidierung schätzt. Die Methode (und der Wert von $\lambda$ ), die am besten funktioniert, hängt vom Problem ab.

Wenn Sie an statistischen Inferenzen interessiert sind (dh die Unsicherheit bei Parameterschätzungen berücksichtigen oder ein zugrunde liegendes "wahres" Modell richtig identifizieren), benötigen Sie eine Möglichkeit, p-Werte, Konfidenzintervalle usw. zu berechnen OLS funktioniert nicht für die Lasso- und Ridge-Regression. Beachten Sie auch, dass die Identifizierung wichtiger Variablen viele Feinheiten und Vorbehalte aufweist.

Sind die Gratregressionsschätzungen am kleinsten? $\lambda$ Wert genau gleich den Schätzungen der kleinsten Quadrate?

Wann $\lambda=0$ Sowohl die Gratregression als auch das Lasso entsprechen den gewöhnlichen kleinsten Quadraten (OLS). Sie können dies sehen, indem Sie das Optimierungsproblem für jede Methode und Einstellung schreiben $\lambda$ bis Null:

β_{O L S} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - β \cdot x_{i})^{2}

$\beta_{OLS} = \underset{\beta}{\text{argmin}} \sum_{i=1}^n (y_i - \beta \cdot x_i)^2$

β_{l a s s o} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - β \cdot x_{i})^{2} + λ ‖ β ‖_{1}

$\beta_{lasso} = \underset{\beta}{\text{argmin}} \sum_{i=1}^n (y_i - \beta \cdot x_i)^2 + \lambda \|\beta\|_1$

β_{r i d g e} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - β \cdot x_{i})^{2} + λ ‖ β ‖_{2}^{2}

$\beta_{ridge} = \underset{\beta}{\text{argmin}} \sum_{i=1}^n (y_i - \beta \cdot x_i)^2 + \lambda \|\beta\|_2^2$

Wie sind diese beiden Handlungen zu interpretieren?

Jede Trajektorie zeigt den Wert eines einzelnen Koeffizienten, wenn geändert wird. Es sieht so aus, als ob Ihre x-Achse falsch beschriftet ist ( nimmt tatsächlich von links nach rechts ab). $\lambda$ $\lambda$

Einige allgemeine Dinge, die Sie in diesen Darstellungen bemerken können (die bekannte Fakten über die Lasso- und Gratregression sind): Beide Methoden verkleinern die Koeffizienten stärker gegen Null, wenn zunimmt (Bewegung von rechts nach links auf der x-Achse). Lasso erzeugt spärliche Lösungen - mit zunehmendem werden immer mehr Koeffizienten genau auf Null gesetzt, während andere relativ groß bleiben (weshalb Lasso für die Variablenauswahl nützlich ist). Die Ridge-Regression verhält sich nicht so - wenn zunimmt, nimmt die Gesamtgröße der Koeffizienten ab, aber einzelne Koeffizienten werden nicht genau auf Null getrieben. $\lambda$ $\lambda$ $\lambda$

Was bedeutet das für die roten Endpunkte auf der Linie oder darüber oder darunter?

Sie sagten, die roten Punkte repräsentieren die OLS-Koeffizienten. Da die Lasso- und Ridge-Regression die Koeffizienten gegen Null verkleinert, sind die Größen kleiner als OLS, wenn . Ihre Diagramme würden die roten Punkte bei schneiden , wobei alle Methoden gleichwertig sind. $\lambda > 0$ $\lambda=0$

— user20160
quelle