Als «elastic-net» getaggte Fragen

Eine Regularisierungsmethode für Regressionsmodelle, die die Strafen von Lasso und Ridge Regression kombiniert.




2
Anpassen eines ARIMAX-Modells mit Regularisierung oder Bestrafung (z. B. mit Lasso, elastischem Netz oder Kammregression)
Ich verwende die auto.arima () -Funktion im Vorhersagepaket , um ARMAX-Modelle mit einer Vielzahl von Kovariaten zu kombinieren. Ich habe jedoch oft eine große Anzahl von Variablen zur Auswahl und erhalte normalerweise ein endgültiges Modell, das mit einer Teilmenge von ihnen funktioniert. Ich mag keine Ad-hoc-Techniken für die Variablenauswahl, weil …

1
Warum verwendet glmnet ein "naives" elastisches Netz aus dem Originalpapier von Zou & Hastie?
Das ursprüngliche elastische Netzpapier Zou & Hastie (2005) Regularisierung und Variablenauswahl über das elastische Netz führten die elastische Nettoverlustfunktion für die lineare Regression ein (hier gehe ich davon aus, dass alle Variablen zentriert und auf die Einheitsvarianz skaliert sind): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + …

2
Warum ist Lambda „innerhalb eines Standardfehlers vom Minimum“ ein empfohlener Wert für Lambda in einer elastischen Netto-Regression?
Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert. Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der Wert von Lambda, der den CV-Fehler plus einen …



2
Auswahl des optimalen Alphas in der elastischen Netto-Logistik-Regression
Ich führe mithilfe des glmnetPakets in R eine elastisch-net logistische Regression für einen Datensatz im Gesundheitswesen durch, indem ich Lambda-Werte über ein Raster von von 0 bis 1 auswähle . Mein abgekürzter Code lautet wie folgt:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for …


1
Gibt es eine klare Reihe von Bedingungen, unter denen Lasso, Grat oder elastische Netzlösungspfade monoton sind?
Die Frage, was aus diesem Lasso-Plot (glmnet) zu schließen ist, zeigt Lösungswege für den Lasso-Schätzer, die nicht monoton sind. Das heißt, einige der Cofficients nehmen im absoluten Wert zu, bevor sie schrumpfen. Ich habe diese Modelle auf verschiedene Arten von Datensätzen angewendet und dieses Verhalten noch nie "in freier Wildbahn" …

1
Gibt es eine Bayes'sche Interpretation der linearen Regression mit simultaner L1- und L2-Regularisierung (auch bekannt als elastisches Netz)?
Es ist allgemein bekannt, dass eine lineare Regression mit einer 1 Strafe gleichbedeutend ist mit dem Finden der MAP-Schätzung, wenn ein Gaußscher Wert vor den Koeffizienten angegeben wird. In ähnlicher Weise ist die Verwendung einer Strafe gleichbedeutend mit der Verwendung einer Laplace-Verteilung wie zuvor.l 1l2l2l^2l1l1l^1 Es ist nicht ungewöhnlich, eine …

1
Ist der R-Quadrat-Wert zum Vergleichen von Modellen geeignet?
Ich versuche, das beste Modell zu finden, um die Preise für Automobile vorherzusagen. Dabei verwende ich die Preise und Funktionen, die auf Websites für Kleinanzeigen für Automobile verfügbar sind. Dazu verwendete ich einige Modelle aus der Scikit-Learn-Bibliothek und neuronale Netzwerkmodelle aus Pybrain und Neurolab. Der Ansatz, den ich bisher verwendet …

3
Verwendung der Regularisierung bei statistischen Inferenzen
Ich kenne die Vorteile der Regularisierung bei der Erstellung von Vorhersagemodellen (Bias vs. Varianz, Vermeidung von Überanpassung). Aber ich frage mich, ob es eine gute Idee ist, auch Regularisierungen durchzuführen (Lasso, Grat, elastisches Netz), wenn der Hauptzweck des Regressionsmodells darin besteht, auf die Koeffizienten zu schließen (zu sehen, welche Prädiktoren …

2
Warum Lasso oder ElasticNet besser abschneiden als Ridge, wenn die Merkmale miteinander korrelieren
Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung. AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf …

1
LARS gegen Koordinatenabstieg für das Lasso
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


3
Lasso vs. adaptives Lasso
LASSO und adaptives LASSO sind zwei verschiedene Dinge, richtig? (Für mich sehen die Strafen anders aus, aber ich überprüfe nur, ob ich etwas verpasse.) Wenn Sie allgemein von elastischem Netz sprechen, ist der Sonderfall LASSO oder adaptives LASSO? Welches macht das glmnet-Paket, vorausgesetzt Sie wählen alpha = 1? Adaptive LASSO …


1
Unterschied zwischen ElasticNet in Scikit-Learn Python und Glmnet in R.
Hat jemand versucht zu überprüfen, ob das Anpassen eines Elastic Net-Modells mit ElasticNetin scikit-learn in Python und glmnetin R an denselben Datensatz identische arithmetische Ergebnisse liefert? Ich habe mit vielen Kombinationen der Parameter experimentiert (da sich die beiden Funktionen in den Standardwerten unterscheiden, die sie an die Argumente übergeben) und …

2
Warum kann die Ridge-Regression keine bessere Interpretierbarkeit bieten als LASSO?
Ich habe bereits eine Vorstellung von den Vor- und Nachteilen der Gratregression und des LASSO. Für das LASSO ergibt der L1-Strafausdruck einen Vektor mit geringem Koeffizienten, der als Merkmalsauswahlmethode angesehen werden kann. Es gibt jedoch einige Einschränkungen für den LASSO. Wenn die Merkmale eine hohe Korrelation aufweisen, wählt der LASSO …


1
Replizieren der Ergebnisse für die lineare glmnet-Regression mithilfe eines generischen Optimierers
Wie der Titel schon sagt, versuche ich, die Ergebnisse von glmnet linear mit dem LBFGS-Optimierer aus der Bibliothek zu replizieren lbfgs. Mit diesem Optimierer können wir einen L1-Regularisierungsbegriff hinzufügen, ohne uns um die Differenzierbarkeit kümmern zu müssen, solange unsere Zielfunktion (ohne den L1-Regularisierungsbegriff) konvex ist. Das Problem der linearen Regression …

3
Verwirrung in Bezug auf elastisches Netz
Ich habe diesen Artikel über elastisches Netz gelesen. Sie sagen, dass sie ein elastisches Netz verwenden, denn wenn wir nur Lasso verwenden, wird tendenziell nur ein Prädiktor unter den Prädiktoren ausgewählt, die stark korreliert sind. Aber wollen wir das nicht? Ich meine, es erspart uns die Mühe der Multikollinearität, nicht …

1
Bestrafte Methoden für kategoriale Daten: Kombinieren von Ebenen in einem Faktor
Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu …

2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
Lambda-Bereich in elastischer Netzregression
\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …

1
Wie schreibe ich das elastische Netz richtig?
Ich bin verwirrt über die richtige Art, das elastische Netz zu schreiben. Nach dem Lesen einiger Forschungsarbeiten scheint es drei Formen zu geben 1)exp{ - λ1| βk| - λ2β2k}}exp⁡{- -λ1|βk|- -λ2βk2}}\exp\{-\lambda_1|\beta_k|-\lambda_2\beta_k^2\} 2)exp{ - ( λ1| βk| + λ2β2k)σ2√}}exp⁡{- -(λ1|βk|+λ2βk2)σ2}}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{\sqrt{\sigma^2}}\} 3)exp{ - ( λ1| βk| + λ2β2k)2 σ2}}exp⁡{- -(λ1|βk|+λ2βk2)2σ2}}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{2\sigma^2}\} Ich verstehe …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.