Statistiken und Big Data lasso

1

Warum proximaler Gradientenabstieg anstelle einfacher Subgradientenmethoden für Lasso?

Ich dachte daran, Lasso mit Vanille-Subgradienten-Methoden zu lösen. Aber ich habe Leute gelesen, die vorschlagen, den proximalen Gradientenabstieg zu verwenden. Kann jemand hervorheben, warum für Lasso proximale GD anstelle von Vanille-Subgradienten-Methoden verwendet werden?

9 machine-learning optimization lasso gradient-descent

1

Kreuzvalidierende Lasso-Regression in R.

Die R-Funktion cv.glm (Bibliothek: Boot) berechnet den geschätzten K-fachen Kreuzvalidierungs-Vorhersagefehler für verallgemeinerte lineare Modelle und gibt Delta zurück. Ist es sinnvoll, diese Funktion für eine Lasso-Regression (Bibliothek: glmnet) zu verwenden, und wenn ja, wie kann sie ausgeführt werden? Die glmnet-Bibliothek verwendet eine Kreuzvalidierung, um den besten Drehparameter zu erhalten, aber …

9 r regression cross-validation lasso glmnet

1

LASSO für erklärende Modelle: verkleinerte Parameter oder nicht?

Ich führe eine Analyse durch, bei der das Hauptziel darin besteht, die Daten zu verstehen. Der Datensatz ist groß genug für eine Kreuzvalidierung (10 KB), und Prädiktoren enthalten sowohl kontinuierliche als auch Dummy-Variablen, und das Ergebnis ist kontinuierlich. Hauptziel war es zu sehen, ob es sinnvoll ist, einige Prädiktoren auszuschalten, …

9 lasso explanatory-models

1

Wie interpretiere ich Variablen, die vom Lasso-Modell ausgeschlossen oder im Lasso-Modell enthalten sind?

Ich habe aus anderen Beiträgen erfahren, dass man Prädiktorvariablen, die in ein Lasso-Modell eingehen, keine "Wichtigkeit" oder "Signifikanz" zuweisen kann, da die Berechnung der p-Werte oder Standardabweichungen dieser Variablen noch in Arbeit ist. Ist es unter diesen Umständen richtig zu behaupten, dass man NICHT sagen kann, dass Variablen, die vom …

9 statistical-significance bootstrap simulation lasso regression-strategies

1

Verbindung zwischen Lasso-Formulierungen

Diese Frage mag dumm sein, aber ich habe festgestellt, dass es zwei verschiedene Formulierungen der Lasso- Regression gibt. Wir wissen, dass das Lasso- Problem darin besteht, das Ziel zu minimieren, das aus dem plus dem 1-Strafausdruck besteht, ausgedrückt wie folgt: LLLminβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1 \min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \; …

9 lasso

1

Wie geht glmnet mit Überdispersion um?

Ich habe eine Frage zum Modellieren von Text über Zähldaten, insbesondere zum Verwenden der lassoTechnik zum Reduzieren von Features. Angenommen, ich habe N Online-Artikel und die Anzahl der Seitenaufrufe für jeden Artikel. Ich habe 1 Gramm und 2 Gramm für jeden Artikel extrahiert und wollte eine Regression über die 1,2 …

9 poisson-distribution lasso glmnet overdispersion penalized

3

Auswahl von k Knoten im Regressionsglättungs-Spline entsprechend k kategorialen Variablen?

Ich arbeite an einem prädiktiven Kostenmodell, bei dem das Alter des Patienten (eine in Jahren gemessene ganzzahlige Größe) eine der Prädiktorvariablen ist. Ein starker nichtlinearer Zusammenhang zwischen Alter und Risiko eines Krankenhausaufenthaltes ist offensichtlich: Ich denke über einen bestraften Regressionsglättungs-Spline für das Alter des Patienten nach. Gemäß The Elements of …

9 nonlinear-regression lasso ridge-regression smoothing splines

4

Lasso-ing die Reihenfolge einer Verzögerung?

Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j …

9 feature-selection lasso shrinkage

1

Bestrafte Methoden für kategoriale Daten: Kombinieren von Ebenen in einem Faktor

Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu …

9 categorical-data lasso elastic-net log-linear many-categories

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Wenn die Multikollinearität hoch ist, würden die LASSO-Koeffizienten auf 0 schrumpfen?

Gegeben , was ist das theoretische Verhalten von LASSO - Koeffizienten und warum?x2=2x1x2=2x1x_2 = 2 x_1 Würde einer von oder auf oder beide schrumpfen ?x1x1x_1x2x2x_2000 require(glmnet) x1 = runif(100, 1, 2) x2 = 2*x1 x_train = cbind(x1, x2) y = 100*x1 + 100 + runif(1) ridge.mod = cv.glmnet(x_train, y, alpha …

9 lasso multicollinearity

1

LASSO-Regularisierungsparameter vom LARS-Algorithmus

In ihrer wegweisenden Arbeit 'Least Angle Regression' beschreiben Efron et al. Eine einfache Modifikation des LARS-Algorithmus, mit der vollständige LASSO-Regularisierungspfade berechnet werden können. l1l1l_1∥β∥1‖β‖1\Vert \beta \Vert_1 Es scheint jedoch, dass die meisten verfügbaren Pakete den Regularisierungspfad in Bezug auf den LASSO-Bestrafungskoeffizienten bereitstellen (z. B. LARS in R, wo Sie mit …

9 regression lasso regularization lars

1

Lambda-Bereich in elastischer Netzregression

\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …

9 least-squares lasso regularization ridge-regression elastic-net

3

Wie kann bei Verwendung von glmnet die p-Wert-Signifikanz gemeldet werden, um die Signifikanz von Prädiktoren zu beanspruchen?

Ich habe eine große Anzahl von Prädiktoren (mehr als 43.000) zur Vorhersage einer abhängigen Variablen, die 2 Werte annehmen kann (0 oder 1). Die Anzahl der Beobachtungen beträgt mehr als 45.000. Die meisten Prädiktoren sind Unigramme, Bigramme und Trigramme von Wörtern, daher besteht zwischen ihnen ein hohes Maß an Kollinearität. …

9 r multiple-regression lasso glmnet

1

Warum Lasso für die Funktionsauswahl?

Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …

9 feature-selection linear-model lasso ridge-regression

Als «lasso» getaggte Fragen