Eine Regularisierungsmethode für Regressionsmodelle, bei der die Koeffizienten gegen Null verkleinert werden und einige von ihnen gleich Null sind. Somit führt Lasso eine Merkmalsauswahl durch.
Ich habe mich gefragt, warum LASSO- und LARS-Modellauswahlmethoden so beliebt sind, obwohl sie im Grunde genommen nur Variationen der schrittweisen Vorauswahl sind (und daher unter Pfadabhängigkeit leiden). Warum werden GETS-Methoden (General to Specific) für die Modellauswahl meist ignoriert, obwohl sie besser sind als LARS / LASSO, weil sie nicht unter …
Ich habe die beliebtesten Bücher zum statistischen Lernen gelesen 1- Die Elemente des statistischen Lernens. 2- Eine Einführung in das statistische Lernen . Beide erwähnen, dass die Gratregression zwei äquivalente Formeln hat. Gibt es einen nachvollziehbaren mathematischen Beweis für dieses Ergebnis? Ich habe auch Cross Validated durchlaufen , kann dort …
Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? ℓ1ℓ1\ell_1Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es oft unpraktisch ist, den Parameter durch Kreuzvalidierung oder Bootstrap zu …
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 3 Jahren . Ich erstelle eine logistische Regression in R mithilfe der LASSO-Methode mit den Funktionen cv.glmnetzur Auswahl …
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=argminβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Wir wissen, dass für die Lassoschätzung . (Siehe zum Beispiel den Bereich der Lasso und Ridge-Tuning-Parameter .) In einer anderen Notation drückt dies aus, dass . Beachten Sie, dassWir …
Ich möchte eine zufällige Gesamtstruktur mit dem folgenden Verfahren erstellen: Erstellen Sie einen Baum aus zufälligen Stichproben der Daten und Features, und verwenden Sie dabei den Informationsgewinn, um die Aufteilung zu bestimmen Beenden Sie einen Blattknoten, wenn er eine vordefinierte Tiefe überschreitet, ODER wenn eine Teilung zu einer Blattanzahl führen …
Mein allgemeines Verständnis ist, dass sich AIC mit dem Kompromiss zwischen der Anpassungsgüte des Modells und der Komplexität des Modells befasst. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = Anzahl der Parameter im Modell LLL = Wahrscheinlichkeit Das Bayes'sche Informationskriterium BIC ist eng mit dem AIC verwandt. Der AIC benachteiligt die Anzahl der …
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Wenn Sie oben in diesem Beitrag nachsehen, erwähnt der Verfasser, dass die L2-Norm eine eindeutige Lösung und die L1-Norm möglicherweise viele Lösungen enthält. Ich verstehe dies als Regularisierung, aber nicht als Verwendung der L1-Norm oder der L2-Norm in der Verlustfunktion. Wenn Sie sich Diagramme der Funktionen von skalarem x …
Ich lese über die Auswahl der besten Teilmengen im Buch Elemente des statistischen Lernens. Wenn ich 3 Prädiktoren , erstelle ich 2 3 = 8 Teilmengen:x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 Teilmenge ohne Prädiktoren Teilmenge mit Prädiktor x1x1x_1 Teilmenge mit Prädiktor x2x2x_2 Teilmenge mit Prädiktor x3x3x_3 Teilmenge mit Prädiktoren x1,x2x1,x2x_1,x_2 Teilmenge mit Prädiktoren x1,x3x1,x3x_1,x_3 Teilmenge …
\newcommand{\diag}{\operatorname{diag}} Wir haben das Problem: mit der Annahme, dass: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Gibt es in diesem Fall eine geschlossene Lösung? Ich habe folgendes: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), und daher …
Eine der Beweggründe für das elastische Netz war die folgende Einschränkung von LASSO: Im Fall p>np>np > n wählt das Lasso aufgrund der Art des konvexen Optimierungsproblems höchstens n Variablen aus, bevor es gesättigt wird. Dies scheint ein einschränkendes Merkmal für eine variable Auswahlmethode zu sein. Darüber hinaus ist das …
Es gibt mehrere mathematisch anspruchsvolle Artikel, die das Bayes'sche Lasso beschreiben, aber ich möchte getesteten, korrekten JAGS-Code, den ich verwenden kann. Könnte jemand einen Beispiel-BUGS / JAGS-Code veröffentlichen, der eine regulierte logistische Regression implementiert? Jedes Schema (L1, L2, Elasticnet) wäre toll, aber Lasso wird bevorzugt. Ich frage mich auch, ob …
Tabelle 18.1 in den Elementen des statistischen Lernens fasst die Leistung mehrerer Klassifikatoren in einem 14-Klassen-Datensatz zusammen. Ich vergleiche einen neuen Algorithmus mit dem Lasso und dem elastischen Netz für solche Klassifizierungsprobleme mit mehreren Klassen. Unter Verwendung von glmnetVersion 1.5.3 (R 2.13.0) kann ich Punkt 7 (das mit -penalisierte Multinom) …
Ich möchte die Koeffizienten für das LASSO-Problem erhalten ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Das Problem ist, dass die Funktionen glmnet und lars unterschiedliche Antworten geben. Für die glmnet-Funktion frage ich nach den Koeffizienten von statt nur λ , aber ich bekomme immer noch andere Antworten.λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda Wird das erwartet? Wie ist die Beziehung zwischen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.