Statistiken und Big Data regularization

1

Daten müssen in der Regression zentriert und standardisiert werden

Berücksichtigen Sie die lineare Regression mit einer gewissen Regularisierung: ZB Finden Sie , das minimiert| | A x - b | | 2 + λ | | x | | 1xxx| | Ax-b | |2+ λ | | x | |1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Normalerweise sind die Spalten von A so …

16 regression lasso regularization standardization

2

Warum funktioniert das Schrumpfen wirklich, was ist das Besondere an 0?

Auf dieser Website gibt es bereits einen Beitrag, der sich mit demselben Thema befasst: Warum funktioniert das Schrumpfen? Aber obwohl die Antworten beliebt sind, glaube ich nicht, dass der Kern der Frage wirklich angesprochen wird. Es ist ziemlich klar, dass die Einführung einer gewissen Verzerrung der Schätzung zu einer Verringerung …

15 regularization ridge-regression shrinkage

1

Regularisierung für ARIMA-Modelle

Ich kenne die Regularisierung nach LASSO, Ridge und Elastic-Net in linearen Regressionsmodellen. Frage: Kann diese (oder eine ähnliche) Art der bestraften Schätzung auf die ARIMA-Modellierung angewendet werden (mit einem nicht leeren MA-Teil)? Beim Erstellen von ARIMA-Modellen scheint es üblich zu sein, eine vorgewählte maximale Verzögerungsreihenfolge ( , ) zu berücksichtigen …

15 time-series arima lasso regularization ridge-regression

4

Der Beweis äquivalenter Formeln der Gratregression

Ich habe die beliebtesten Bücher zum statistischen Lernen gelesen 1- Die Elemente des statistischen Lernens. 2- Eine Einführung in das statistische Lernen . Beide erwähnen, dass die Gratregression zwei äquivalente Formeln hat. Gibt es einen nachvollziehbaren mathematischen Beweis für dieses Ergebnis? Ich habe auch Cross Validated durchlaufen , kann dort …

15 regression lasso regularization ridge-regression lagrange-multipliers

3

Regularisierung und Feature-Skalierung beim Online-Lernen?

Nehmen wir an, ich habe einen logistischen Regressionsklassifikator. Beim normalen Batch-Lernen hätte ich einen Regularizer-Term, um eine Überanpassung zu verhindern und meine Gewichte klein zu halten. Ich würde auch meine Funktionen normalisieren und skalieren. In einer Online-Lernumgebung erhalte ich einen kontinuierlichen Datenstrom. Ich führe mit jedem Beispiel ein Gefälle-Update durch …

15 machine-learning normalization regularization online

1

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

1

Was ist das kleinste

β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Wir wissen, dass für die Lassoschätzung . (Siehe zum Beispiel den Bereich der Lasso und Ridge-Tuning-Parameter .) In einer anderen Notation drückt dies aus, dass . Beachten Sie, dassWir …

14 lasso regularization

3

Wie finde ich die Regressionskoeffizienten

Bei der Gratregression ist die zu minimierende Zielfunktion: RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade Differenzierung?

14 regression regularization ridge-regression

2

Warum hat der L2-Normverlust eine eindeutige Lösung und der L1-Normverlust möglicherweise mehrere Lösungen?

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Wenn Sie oben in diesem Beitrag nachsehen, erwähnt der Verfasser, dass die L2-Norm eine eindeutige Lösung und die L1-Norm möglicherweise viele Lösungen enthält. Ich verstehe dies als Regularisierung, aber nicht als Verwendung der L1-Norm oder der L2-Norm in der Verlustfunktion. Wenn Sie sich Diagramme der Funktionen von skalarem x …

14 regression lasso regularization

4

Normen - Was ist das Besondere an

Eine L1L1L_1 -Norm ist (zumindest teilweise) eindeutig, da p=1p=1p=1 an der Grenze zwischen nicht konvex und konvex liegt. Eine L1L1L_1 -Norm ist die 'spärlichste' konvexe Norm (oder?). Ich verstehe, dass die euklidische Norm p=2p=2p=2 Wurzeln in der Geometrie hat und eine klare Interpretation hat, wenn Dimensionen die gleichen Einheiten haben. …

13 regression regularization sparse

1

Lösung des Lasso-Problems in geschlossener Form, wenn die Datenmatrix diagonal ist

\newcommand{\diag}{\operatorname{diag}} Wir haben das Problem: mit der Annahme, dass: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Gibt es in diesem Fall eine geschlossene Lösung? Ich habe folgendes: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), und daher …

13 mathematical-statistics lasso computational-statistics regularization

1

Verhinderung einer Überanpassung von LSTM bei kleinen Datenmengen

Ich modelliere 15000 Tweets für die Stimmungsvorhersage unter Verwendung eines einschichtigen LSTM mit 128 verborgenen Einheiten unter Verwendung einer word2vec-ähnlichen Darstellung mit 80 Dimensionen. Nach 1 Epoche erhalte ich eine Abstiegsgenauigkeit (38% bei Zufall = 20%). Mehr Training führt dazu, dass die Validierungsgenauigkeit abnimmt, wenn die Trainingsgenauigkeit zu steigen beginnt …

13 deep-learning regularization overfitting lstm

1

Bias-Varianz-Zerlegung

In Abschnitt 3.2 von Bishops Mustererkennung und maschinellem Lernen erörtert er die Bias-Varianz-Zerlegung und erklärt, dass für eine quadratische Verlustfunktion der erwartete Verlust in einen quadratischen Bias-Term zerlegt werden kann (der beschreibt, wie weit die durchschnittlichen Vorhersagen von den wahren abweichen Modell), ein Varianzterm (der die Streuung der Vorhersagen um …

13 self-study variance bias regularization loss-functions

1

Regularisierte bayesianische logistische Regression in JAGS

Es gibt mehrere mathematisch anspruchsvolle Artikel, die das Bayes'sche Lasso beschreiben, aber ich möchte getesteten, korrekten JAGS-Code, den ich verwenden kann. Könnte jemand einen Beispiel-BUGS / JAGS-Code veröffentlichen, der eine regulierte logistische Regression implementiert? Jedes Schema (L1, L2, Elasticnet) wäre toll, aber Lasso wird bevorzugt. Ich frage mich auch, ob …

13 bayesian logistic lasso jags regularization

3

GLMNET oder LARS für die Berechnung von LASSO-Lösungen?

Ich möchte die Koeffizienten für das LASSO-Problem erhalten ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Das Problem ist, dass die Funktionen glmnet und lars unterschiedliche Antworten geben. Für die glmnet-Funktion frage ich nach den Koeffizienten von statt nur λ , aber ich bekomme immer noch andere Antworten.λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda Wird das erwartet? Wie ist die Beziehung zwischen …

13 r machine-learning regression lasso regularization

Als «regularization» getaggte Fragen