Als «ridge-regression» getaggte Fragen

Eine Regularisierungsmethode für Regressionsmodelle, die die Koeffizienten gegen Null verringert.

2
Warum kann die Ridge-Regression keine bessere Interpretierbarkeit bieten als LASSO?
Ich habe bereits eine Vorstellung von den Vor- und Nachteilen der Gratregression und des LASSO. Für das LASSO ergibt der L1-Strafausdruck einen Vektor mit geringem Koeffizienten, der als Merkmalsauswahlmethode angesehen werden kann. Es gibt jedoch einige Einschränkungen für den LASSO. Wenn die Merkmale eine hohe Korrelation aufweisen, wählt der LASSO …

1
Die Ridge-Regression führt bei der Verwendung von lm.ridge und glmnet zu unterschiedlichen Ergebnissen
Ich habe einige Daten angewendet, um die beste Variablenlösung des Regressionsmodells unter Verwendung der Gratregression in R zu finden. Ich habe lm.ridgeund glmnet(wann alpha=0) verwendet, aber die Ergebnisse sind sehr unterschiedlich, insbesondere wenn lambda=0. Es wird angenommen, dass beide Parameterschätzer die gleichen Werte haben. Also, was ist das Problem hier? …

1
Ridge und LASSO eine Kovarianzstruktur gegeben?
(y⃗ −Xβ⃗ )TV−1(y⃗ −Xβ⃗ )+λf(β), (1)(y→−Xβ→)TV−1(y→−Xβ→)+λf(β), (1)(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) (y⃗ −Xβ⃗ )(y⃗ −Xβ⃗ )+λf(β). (2)(y→−Xβ→)(y→−Xβ→)+λf(β). (2)(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2) This was mainly motivated by the fact that in my particular application, we have different variances for the y⃗ …


4
Ist Multikollinearität wirklich ein Problem?
Ich arbeite derzeit an einem Vorhersagemodellierungsprojekt: Ich versuche, ein Modell zu lernen und Echtzeitvorhersagen auf der Grundlage des Modells zu treffen, das ich offline gelernt habe. Ich habe kürzlich angefangen, die Ridge-Regression zu verwenden, weil ich gelesen habe, dass Regularisierung dazu beitragen kann, den Effekt der Multikollinearität zu verringern. Allerdings …


2
Unterschied zwischen der Implementierung der Ridge-Regression in R und SAS
Ich habe die Beschreibung der Kammregression in Applied Linear Statistical Models , 5. Ausgabe, Kapitel 11, gelesen . Die Kammregression wird anhand der hier verfügbaren Körperfettdaten durchgeführt . Das Lehrbuch entspricht der Ausgabe in SAS, wobei die rücktransformierten Koeffizienten im angepassten Modell wie folgt angegeben werden: Y.= - 7,3978 + …


2
Klare Erklärung für die „numerische Stabilität der Matrixinversion“ bei der Gratregression und ihre Rolle bei der Reduzierung der Überanpassung
Ich verstehe, dass wir Regularisierung in einem Regressionsproblem der kleinsten Quadrate als anwenden können w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] und dass dieses Problem eine geschlossene Lösung hat als: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Wir sehen, dass in der 2. Gleichung die Regularisierung einfach λλ\lambda zur Diagonale von \ …

1
Kernel Ridge Regressionseffizienz
Die Ridge-Regression kann ausgedrückt werden als wobei die vorhergesagte Bezeichnung ist , die Identifizierungsmatrix, das Objekt, für das wir eine Bezeichnung finden möchten, und die Matrix von Objekten so dass:y^=(X′X+aId)−1Xxy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}xy^y^\hat{y}IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X=⎛⎝⎜⎜⎜⎜⎜x1,1x2,1⋮xn,1x1,2x2,2⋮x1,2……⋱…x1,dx2,d⋮xn,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} …



3
K-fache oder Hold-out-Kreuzvalidierung für die Gratregression mit R.
Ich arbeite an einer Kreuzvalidierung der Vorhersage meiner Daten mit 200 Probanden und 1000 Variablen. Ich bin an einer Ridge-Regression interessiert, da die Anzahl der Variablen (die ich verwenden möchte) größer ist als die Anzahl der Stichproben. Ich möchte also Schrumpfungsschätzer verwenden. Die folgenden Beispieldaten bestehen aus: #random population of …

3
Auswahl von k Knoten im Regressionsglättungs-Spline entsprechend k kategorialen Variablen?
Ich arbeite an einem prädiktiven Kostenmodell, bei dem das Alter des Patienten (eine in Jahren gemessene ganzzahlige Größe) eine der Prädiktorvariablen ist. Ein starker nichtlinearer Zusammenhang zwischen Alter und Risiko eines Krankenhausaufenthaltes ist offensichtlich: Ich denke über einen bestraften Regressionsglättungs-Spline für das Alter des Patienten nach. Gemäß The Elements of …

1
Anwenden der Gratregression für ein unterbestimmtes Gleichungssystem?
Wenn , kann das Problem der kleinsten Quadrate, das dem Wert von eine sphärische Beschränkung auferlegt , als für ein überbestimmtes System. \ | \ cdot \ | _2 ist die euklidische Norm eines Vektors.y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.