Eine Regularisierungsmethode für Regressionsmodelle, bei der die Koeffizienten gegen Null verkleinert werden und einige von ihnen gleich Null sind. Somit führt Lasso eine Merkmalsauswahl durch.
Ich dachte daran, Lasso mit Vanille-Subgradienten-Methoden zu lösen. Aber ich habe Leute gelesen, die vorschlagen, den proximalen Gradientenabstieg zu verwenden. Kann jemand hervorheben, warum für Lasso proximale GD anstelle von Vanille-Subgradienten-Methoden verwendet werden?
Die R-Funktion cv.glm (Bibliothek: Boot) berechnet den geschätzten K-fachen Kreuzvalidierungs-Vorhersagefehler für verallgemeinerte lineare Modelle und gibt Delta zurück. Ist es sinnvoll, diese Funktion für eine Lasso-Regression (Bibliothek: glmnet) zu verwenden, und wenn ja, wie kann sie ausgeführt werden? Die glmnet-Bibliothek verwendet eine Kreuzvalidierung, um den besten Drehparameter zu erhalten, aber …
Ich führe eine Analyse durch, bei der das Hauptziel darin besteht, die Daten zu verstehen. Der Datensatz ist groß genug für eine Kreuzvalidierung (10 KB), und Prädiktoren enthalten sowohl kontinuierliche als auch Dummy-Variablen, und das Ergebnis ist kontinuierlich. Hauptziel war es zu sehen, ob es sinnvoll ist, einige Prädiktoren auszuschalten, …
Ich habe aus anderen Beiträgen erfahren, dass man Prädiktorvariablen, die in ein Lasso-Modell eingehen, keine "Wichtigkeit" oder "Signifikanz" zuweisen kann, da die Berechnung der p-Werte oder Standardabweichungen dieser Variablen noch in Arbeit ist. Ist es unter diesen Umständen richtig zu behaupten, dass man NICHT sagen kann, dass Variablen, die vom …
Diese Frage mag dumm sein, aber ich habe festgestellt, dass es zwei verschiedene Formulierungen der Lasso- Regression gibt. Wir wissen, dass das Lasso- Problem darin besteht, das Ziel zu minimieren, das aus dem plus dem 1-Strafausdruck besteht, ausgedrückt wie folgt: LLLminβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1 \min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \; …
Ich habe eine Frage zum Modellieren von Text über Zähldaten, insbesondere zum Verwenden der lassoTechnik zum Reduzieren von Features. Angenommen, ich habe N Online-Artikel und die Anzahl der Seitenaufrufe für jeden Artikel. Ich habe 1 Gramm und 2 Gramm für jeden Artikel extrahiert und wollte eine Regression über die 1,2 …
Ich arbeite an einem prädiktiven Kostenmodell, bei dem das Alter des Patienten (eine in Jahren gemessene ganzzahlige Größe) eine der Prädiktorvariablen ist. Ein starker nichtlinearer Zusammenhang zwischen Alter und Risiko eines Krankenhausaufenthaltes ist offensichtlich: Ich denke über einen bestraften Regressionsglättungs-Spline für das Alter des Patienten nach. Gemäß The Elements of …
Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j …
Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu …
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
Gegeben , was ist das theoretische Verhalten von LASSO - Koeffizienten und warum?x2=2x1x2=2x1x_2 = 2 x_1 Würde einer von oder auf oder beide schrumpfen ?x1x1x_1x2x2x_2000 require(glmnet) x1 = runif(100, 1, 2) x2 = 2*x1 x_train = cbind(x1, x2) y = 100*x1 + 100 + runif(1) ridge.mod = cv.glmnet(x_train, y, alpha …
In ihrer wegweisenden Arbeit 'Least Angle Regression' beschreiben Efron et al. Eine einfache Modifikation des LARS-Algorithmus, mit der vollständige LASSO-Regularisierungspfade berechnet werden können. l1l1l_1∥β∥1‖β‖1\Vert \beta \Vert_1 Es scheint jedoch, dass die meisten verfügbaren Pakete den Regularisierungspfad in Bezug auf den LASSO-Bestrafungskoeffizienten bereitstellen (z. B. LARS in R, wo Sie mit …
\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …
Ich habe eine große Anzahl von Prädiktoren (mehr als 43.000) zur Vorhersage einer abhängigen Variablen, die 2 Werte annehmen kann (0 oder 1). Die Anzahl der Beobachtungen beträgt mehr als 45.000. Die meisten Prädiktoren sind Unigramme, Bigramme und Trigramme von Wörtern, daher besteht zwischen ihnen ein hohes Maß an Kollinearität. …
Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.