Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
Gibt es gute Artikel oder Bücher, die sich mit der Verwendung von Koordinatenabstieg für L1 (Lasso) und / oder elastischer Netzregulierung für lineare Regressionsprobleme befassen?
LASSO und adaptives LASSO sind zwei verschiedene Dinge, richtig? (Für mich sehen die Strafen anders aus, aber ich überprüfe nur, ob ich etwas verpasse.) Wenn Sie allgemein von elastischem Netz sprechen, ist der Sonderfall LASSO oder adaptives LASSO? Welches macht das glmnet-Paket, vorausgesetzt Sie wählen alpha = 1? Adaptive LASSO …
Gemäß den Referenzen Buch 1 , Buch 2 und Papier . Es wurde erwähnt, dass es eine Äquivalenz zwischen der regulierten Regression (Ridge, LASSO und Elastic Net) und ihren Einschränkungsformeln gibt. Ich habe mir auch Cross Validated 1 und Cross Validated 2 angesehen , aber ich kann keine klare Antwort …
Hat jemand versucht zu überprüfen, ob das Anpassen eines Elastic Net-Modells mit ElasticNetin scikit-learn in Python und glmnetin R an denselben Datensatz identische arithmetische Ergebnisse liefert? Ich habe mit vielen Kombinationen der Parameter experimentiert (da sich die beiden Funktionen in den Standardwerten unterscheiden, die sie an die Argumente übergeben) und …
Ich habe bereits eine Vorstellung von den Vor- und Nachteilen der Gratregression und des LASSO. Für das LASSO ergibt der L1-Strafausdruck einen Vektor mit geringem Koeffizienten, der als Merkmalsauswahlmethode angesehen werden kann. Es gibt jedoch einige Einschränkungen für den LASSO. Wenn die Merkmale eine hohe Korrelation aufweisen, wählt der LASSO …
In mehreren Antworten habe ich gesehen, dass CrossValidated-Benutzer OP vorschlagen, frühe Artikel über Lasso, Ridge und Elastic Net zu finden. Was sind für die Nachwelt die wegweisenden Arbeiten zu Lasso, Ridge und Elastic Net?
Wie der Titel schon sagt, versuche ich, die Ergebnisse von glmnet linear mit dem LBFGS-Optimierer aus der Bibliothek zu replizieren lbfgs. Mit diesem Optimierer können wir einen L1-Regularisierungsbegriff hinzufügen, ohne uns um die Differenzierbarkeit kümmern zu müssen, solange unsere Zielfunktion (ohne den L1-Regularisierungsbegriff) konvex ist. Das Problem der linearen Regression …
Ich habe diesen Artikel über elastisches Netz gelesen. Sie sagen, dass sie ein elastisches Netz verwenden, denn wenn wir nur Lasso verwenden, wird tendenziell nur ein Prädiktor unter den Prädiktoren ausgewählt, die stark korreliert sind. Aber wollen wir das nicht? Ich meine, es erspart uns die Mühe der Multikollinearität, nicht …
Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu …
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …
Ich bin verwirrt über die richtige Art, das elastische Netz zu schreiben. Nach dem Lesen einiger Forschungsarbeiten scheint es drei Formen zu geben 1)exp{ - λ1| βk| - λ2β2k}}exp{- -λ1|βk|- -λ2βk2}}\exp\{-\lambda_1|\beta_k|-\lambda_2\beta_k^2\} 2)exp{ - ( λ1| βk| + λ2β2k)σ2√}}exp{- -(λ1|βk|+λ2βk2)σ2}}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{\sqrt{\sigma^2}}\} 3)exp{ - ( λ1| βk| + λ2β2k)2 σ2}}exp{- -(λ1|βk|+λ2βk2)2σ2}}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{2\sigma^2}\} Ich verstehe …
Was sind die Nachteile der Verwendung eines elastischen Netzes im Vergleich zu Lasso? Ich weiß, dass das elastische Netz Gruppen von Variablen auswählen kann, wenn sie stark korreliert sind. Es hat nicht das Problem, mehr als Prädiktoren auszuwählen, wenn p ≫ n ist . Während Lasso gesättigt ist, wenn p …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.