Als «ridge-regression» getaggte Fragen

Eine Regularisierungsmethode für Regressionsmodelle, die die Koeffizienten gegen Null verringert.

2
Gratregression - Bayesianische Interpretation
Ich habe gehört, dass die Gratregression als Mittelwert einer posterioren Verteilung abgeleitet werden kann, wenn der Prior angemessen gewählt wird. Ist die Intuition, dass die Einschränkungen, die für die Regressionskoeffizienten durch den Prior festgelegt wurden (z. B. Standardnormalverteilungen um 0), identisch sind / ersetzen die Strafe, die für die quadratische …

1
Lagrangeische Entspannung im Kontext der Gratregression
In "The Elements of Statistical Learning" (2. Aufl.), S. 63, geben die Autoren die folgenden zwei Formulierungen des Gratregressionsproblems an: β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} und β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβ2j≤t.β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβj2≤t. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to …

4
Der Beweis äquivalenter Formeln der Gratregression
Ich habe die beliebtesten Bücher zum statistischen Lernen gelesen 1- Die Elemente des statistischen Lernens. 2- Eine Einführung in das statistische Lernen . Beide erwähnen, dass die Gratregression zwei äquivalente Formeln hat. Gibt es einen nachvollziehbaren mathematischen Beweis für dieses Ergebnis? Ich habe auch Cross Validated durchlaufen , kann dort …

1
Ridge-Regressionskoeffizienten, die größer als OLS-Koeffizienten sind oder das Vorzeichen in Abhängigkeit von
Wie interpretieren Sie beim Ausführen der Ridge-Regression Koeffizienten, die größer sind als die entsprechenden Koeffizienten unter den kleinsten Quadraten (für bestimmte Werte von )? Soll die Gratregression nicht die Koeffizienten monoton verkleinern?λλ\lambda Wie interpretiert man in einem verwandten Zusammenhang einen Koeffizienten, dessen Vorzeichen sich während der Gratregression ändert (dh die …


2
AIC, BIC und GCV: Was ist am besten geeignet, um bei bestraften Regressionsmethoden eine Entscheidung zu treffen?
Mein allgemeines Verständnis ist, dass sich AIC mit dem Kompromiss zwischen der Anpassungsgüte des Modells und der Komplexität des Modells befasst. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = Anzahl der Parameter im Modell LLL = Wahrscheinlichkeit Das Bayes'sche Informationskriterium BIC ist eng mit dem AIC verwandt. Der AIC benachteiligt die Anzahl der …


1
Warum funktioniert Ridge Regression bei Multikollinearität gut?
Ich lerne etwas über die Gratregression und weiß, dass die Gratregression bei Multikollinearität tendenziell besser funktioniert. Ich frage mich, warum das so ist? Entweder eine intuitive oder eine mathematische Antwort wäre zufriedenstellend (beide Arten von Antworten wären sogar noch zufriedenstellender). Außerdem weiß ich , dass das β immer erhalten werden, …


2
Ridge bestraft GLMs mit Row Augmentation?
Ich habe gelesen, dass eine Ridge-Regression durch einfaches Hinzufügen von Datenzeilen zur ursprünglichen Datenmatrix erzielt werden kann, wobei jede Zeile unter Verwendung von 0 für die abhängigen Variablen und der Quadratwurzel von kkk oder Null für die unabhängigen Variablen erstellt wird. Für jede unabhängige Variable wird dann eine zusätzliche Zeile …

1
Negative Gratregression verstehen
Ich suche Literatur über negative Gratregression . Kurz gesagt, es ist eine Verallgemeinerung der linearen Regression unter Verwendung ridge negative λλ\lambda in der Schätzer β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Der positive Fall hat eine schöne Theorie: als Verlustfunktion, als Einschränkung, als Bayes-Prior ... aber ich fühle …

5
Ridge & LASSO Normen
Dieser Beitrag folgt diesem: Warum wird die Kammschätzung besser als die OLS, indem der Diagonale eine Konstante hinzugefügt wird? Hier ist meine Frage: Soweit ich weiß, verwendet die eine ℓ 2 -Norm (euklidischer Abstand). Aber warum verwenden wir das Quadrat dieser Norm? (Eine direkte Anwendung von ℓ 2 würde mit …


1
Wie man die Ergebnisse interpretiert, wenn sowohl Grat als auch Lasso getrennt gut abschneiden, aber unterschiedliche Koeffizienten erzeugen
Ich führe sowohl mit Lasso als auch mit Ridge ein Regressionsmodell durch (um eine diskrete Ergebnisvariable im Bereich von 0 bis 5 vorherzusagen). Bevor ich das Modell ausführe, verwende ich die SelectKBestMethode scikit-learn, um den Funktionsumfang von 250 auf 25 zu reduzieren . Ohne eine anfängliche Merkmalsauswahl ergeben sowohl Lasso …

2
Wenn die Schrumpfung auf clevere Weise angewendet wird, funktioniert sie für effizientere Schätzer immer besser?
Angenommen , ich habe zwei Schätzern ß 1 und β 2 , die konsistente Schätzer des gleichen Parameters β 0 und so , dass √βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) mitV1≤V2V1≤V2V_1 \leq V_2in dem psd Sinne. Somit asymptotisch β 1ist effizienter als β 2. Diese …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.