Als «regularization» getaggte Fragen

Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.



1
Regularisierung für ARIMA-Modelle
Ich kenne die Regularisierung nach LASSO, Ridge und Elastic-Net in linearen Regressionsmodellen. Frage: Kann diese (oder eine ähnliche) Art der bestraften Schätzung auf die ARIMA-Modellierung angewendet werden (mit einem nicht leeren MA-Teil)? Beim Erstellen von ARIMA-Modellen scheint es üblich zu sein, eine vorgewählte maximale Verzögerungsreihenfolge ( , ) zu berücksichtigen …

4
Der Beweis äquivalenter Formeln der Gratregression
Ich habe die beliebtesten Bücher zum statistischen Lernen gelesen 1- Die Elemente des statistischen Lernens. 2- Eine Einführung in das statistische Lernen . Beide erwähnen, dass die Gratregression zwei äquivalente Formeln hat. Gibt es einen nachvollziehbaren mathematischen Beweis für dieses Ergebnis? Ich habe auch Cross Validated durchlaufen , kann dort …

3
Regularisierung und Feature-Skalierung beim Online-Lernen?
Nehmen wir an, ich habe einen logistischen Regressionsklassifikator. Beim normalen Batch-Lernen hätte ich einen Regularizer-Term, um eine Überanpassung zu verhindern und meine Gewichte klein zu halten. Ich würde auch meine Funktionen normalisieren und skalieren. In einer Online-Lernumgebung erhalte ich einen kontinuierlichen Datenstrom. Ich führe mit jedem Beispiel ein Gefälle-Update durch …

1
Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

1
Was ist das kleinste
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Wir wissen, dass für die Lassoschätzung . (Siehe zum Beispiel den Bereich der Lasso und Ridge-Tuning-Parameter .) In einer anderen Notation drückt dies aus, dass . Beachten Sie, dassWir …


2
Warum hat der L2-Normverlust eine eindeutige Lösung und der L1-Normverlust möglicherweise mehrere Lösungen?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Wenn Sie oben in diesem Beitrag nachsehen, erwähnt der Verfasser, dass die L2-Norm eine eindeutige Lösung und die L1-Norm möglicherweise viele Lösungen enthält. Ich verstehe dies als Regularisierung, aber nicht als Verwendung der L1-Norm oder der L2-Norm in der Verlustfunktion. Wenn Sie sich Diagramme der Funktionen von skalarem x …

4
Normen - Was ist das Besondere an
Eine L1L1L_1 -Norm ist (zumindest teilweise) eindeutig, da p=1p=1p=1 an der Grenze zwischen nicht konvex und konvex liegt. Eine L1L1L_1 -Norm ist die 'spärlichste' konvexe Norm (oder?). Ich verstehe, dass die euklidische Norm p=2p=2p=2 Wurzeln in der Geometrie hat und eine klare Interpretation hat, wenn Dimensionen die gleichen Einheiten haben. …

1
Lösung des Lasso-Problems in geschlossener Form, wenn die Datenmatrix diagonal ist
\newcommand{\diag}{\operatorname{diag}} Wir haben das Problem: mit der Annahme, dass: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Gibt es in diesem Fall eine geschlossene Lösung? Ich habe folgendes: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), und daher …

1
Verhinderung einer Überanpassung von LSTM bei kleinen Datenmengen
Ich modelliere 15000 Tweets für die Stimmungsvorhersage unter Verwendung eines einschichtigen LSTM mit 128 verborgenen Einheiten unter Verwendung einer word2vec-ähnlichen Darstellung mit 80 Dimensionen. Nach 1 Epoche erhalte ich eine Abstiegsgenauigkeit (38% bei Zufall = 20%). Mehr Training führt dazu, dass die Validierungsgenauigkeit abnimmt, wenn die Trainingsgenauigkeit zu steigen beginnt …

1
Bias-Varianz-Zerlegung
In Abschnitt 3.2 von Bishops Mustererkennung und maschinellem Lernen erörtert er die Bias-Varianz-Zerlegung und erklärt, dass für eine quadratische Verlustfunktion der erwartete Verlust in einen quadratischen Bias-Term zerlegt werden kann (der beschreibt, wie weit die durchschnittlichen Vorhersagen von den wahren abweichen Modell), ein Varianzterm (der die Streuung der Vorhersagen um …

1
Regularisierte bayesianische logistische Regression in JAGS
Es gibt mehrere mathematisch anspruchsvolle Artikel, die das Bayes'sche Lasso beschreiben, aber ich möchte getesteten, korrekten JAGS-Code, den ich verwenden kann. Könnte jemand einen Beispiel-BUGS / JAGS-Code veröffentlichen, der eine regulierte logistische Regression implementiert? Jedes Schema (L1, L2, Elasticnet) wäre toll, aber Lasso wird bevorzugt. Ich frage mich auch, ob …

3
GLMNET oder LARS für die Berechnung von LASSO-Lösungen?
Ich möchte die Koeffizienten für das LASSO-Problem erhalten ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Das Problem ist, dass die Funktionen glmnet und lars unterschiedliche Antworten geben. Für die glmnet-Funktion frage ich nach den Koeffizienten von statt nur λ , aber ich bekomme immer noch andere Antworten.λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda Wird das erwartet? Wie ist die Beziehung zwischen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.