Eine Regularisierungsmethode für Regressionsmodelle, bei der die Koeffizienten gegen Null verkleinert werden und einige von ihnen gleich Null sind. Somit führt Lasso eine Merkmalsauswahl durch.
Ich möchte Lasso oder Ridge-Regression für ein Modell mit mehr als 50.000 Variablen verwenden. Ich möchte dies mithilfe des Softwarepakets in R tun. Wie kann ich den Schrumpfungsparameter ( ) schätzen ?λλ\lambda Bearbeitungen: Hier ist der Punkt, zu dem ich gekommen bin: set.seed (123) Y <- runif (1000) Xv <- …
Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen". Ich verstehe, warum Lasso wünschenswert sein …
Wird die elastische Netz-Regularisierung immer Lasso & Ridge vorgezogen, da sie die Nachteile dieser Methoden zu beseitigen scheint? Was ist die Intuition und was ist die Mathematik hinter dem elastischen Netz?
Ich bin ein Software-Ingenieur, der maschinelles Lernen lernt, insbesondere durch die maschinellen Lernkurse von Andrew Ng . Beim Studium der linearen Regression mit Regularisierung habe ich Begriffe gefunden, die verwirrend sind: Regression mit L1-Regularisierung oder L2-Regularisierung LASSO Gratregression Also meine Fragen: Ist die Regression mit L1-Regularisierung genau das gleiche wie …
Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
Ist es möglich, AIC- oder BIC-Werte für Lasso-Regressionsmodelle und andere regulierte Modelle zu berechnen, bei denen Parameter nur teilweise in die Gleichung eingehen? Wie bestimmt man die Freiheitsgrade? Ich verwende R, um Lasso-Regressionsmodelle mit der glmnet()Funktion aus dem glmnetPaket zu versehen, und möchte wissen, wie AIC- und BIC-Werte für ein …
Hinweis: Ich weiß, dass L1 die Eigenschaft zur Featureauswahl hat. Ich versuche zu verstehen, welche ich wählen soll, wenn die Funktionsauswahl völlig irrelevant ist. Wie kann man entscheiden, welche Regularisierung (L1 oder L2) verwendet werden soll? Was sind die Vor- und Nachteile jeder L1 / L2-Regularisierung? Wird empfohlen, zuerst die …
Für das LASSO (und andere Modellauswahlverfahren) ist es entscheidend, die Prädiktoren neu zu skalieren. Die allgemeine Empfehlung, der ich folge, ist einfach, eine Normierung mit 0 Mittelwerten und 1 Standardabweichung für kontinuierliche Variablen zu verwenden. Aber was gibt es mit Dummies zu tun? ZB einige angewandte Beispiele aus derselben (ausgezeichneten) …
Ich verwende die auto.arima () -Funktion im Vorhersagepaket , um ARMAX-Modelle mit einer Vielzahl von Kovariaten zu kombinieren. Ich habe jedoch oft eine große Anzahl von Variablen zur Auswahl und erhalte normalerweise ein endgültiges Modell, das mit einer Teilmenge von ihnen funktioniert. Ich mag keine Ad-hoc-Techniken für die Variablenauswahl, weil …
Das Lasso-Problem hat die geschlossene Form Lösung: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + wenn X orthonormale Spalten hat. Dies wurde in diesem Thread gezeigt: …
Ich habe vor etwas wie LassoRegression drei Hauptgründe für die Standardisierung von Variablen gelesen : 1) Interpretierbarkeit von Koeffizienten. 2) Fähigkeit, die Wichtigkeit des Koeffizienten nach der relativen Größe der Schätzungen des Nachschrumpfungskoeffizienten zu ordnen. 3) Keine Notwendigkeit zum Abfangen. Aber ich wundere mich über den wichtigsten Punkt. Haben wir …
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Ich habe in einer Reihe von Referenzen gelesen, dass die Lasso-Schätzung für den Regressionsparametervektor dem posterioren Modus von in dem die vorherige Verteilung für jedes eine doppelte Exponentialverteilung ist (auch als Laplace-Verteilung bekannt).BBBBBBBiBiB_i Ich habe versucht, dies zu beweisen, kann jemand die Details ausarbeiten?
Ich habe einmal eine Methode gehört, das Lasso zweimal zu verwenden (wie ein Doppel-Lasso), bei der Sie Lasso für die ursprüngliche Menge von Variablen ausführen, z. B. S1, eine dünn besetzte Menge mit der Bezeichnung S2 erhalten und dann erneut Lasso für die Menge S2 ausführen, um die Menge S3 …
Nehmen Sie für die Lasso-Regression dass die beste Lösung (zum Beispiel minimaler Testfehler) Merkmale auswählt . so dass .k β l a s s o = ( β l a s s o 1 , β l a s s O 2 , . . . , β l aL …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.