Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Berücksichtigen Sie die lineare Regression mit einer gewissen Regularisierung: ZB Finden Sie , das minimiert| | A x - b | | 2 + λ | | x | | 1xxx| | Ax-b | |2+ λ | | x | |1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Normalerweise sind die Spalten von A so …
Auf dieser Website gibt es bereits einen Beitrag, der sich mit demselben Thema befasst: Warum funktioniert das Schrumpfen? Aber obwohl die Antworten beliebt sind, glaube ich nicht, dass der Kern der Frage wirklich angesprochen wird. Es ist ziemlich klar, dass die Einführung einer gewissen Verzerrung der Schätzung zu einer Verringerung …
Ich kenne die Regularisierung nach LASSO, Ridge und Elastic-Net in linearen Regressionsmodellen. Frage: Kann diese (oder eine ähnliche) Art der bestraften Schätzung auf die ARIMA-Modellierung angewendet werden (mit einem nicht leeren MA-Teil)? Beim Erstellen von ARIMA-Modellen scheint es üblich zu sein, eine vorgewählte maximale Verzögerungsreihenfolge ( , ) zu berücksichtigen …
Ich habe die beliebtesten Bücher zum statistischen Lernen gelesen 1- Die Elemente des statistischen Lernens. 2- Eine Einführung in das statistische Lernen . Beide erwähnen, dass die Gratregression zwei äquivalente Formeln hat. Gibt es einen nachvollziehbaren mathematischen Beweis für dieses Ergebnis? Ich habe auch Cross Validated durchlaufen , kann dort …
Nehmen wir an, ich habe einen logistischen Regressionsklassifikator. Beim normalen Batch-Lernen hätte ich einen Regularizer-Term, um eine Überanpassung zu verhindern und meine Gewichte klein zu halten. Ich würde auch meine Funktionen normalisieren und skalieren. In einer Online-Lernumgebung erhalte ich einen kontinuierlichen Datenstrom. Ich führe mit jedem Beispiel ein Gefälle-Update durch …
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=argminβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Wir wissen, dass für die Lassoschätzung . (Siehe zum Beispiel den Bereich der Lasso und Ridge-Tuning-Parameter .) In einer anderen Notation drückt dies aus, dass . Beachten Sie, dassWir …
Bei der Gratregression ist die zu minimierende Zielfunktion: RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade Differenzierung?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Wenn Sie oben in diesem Beitrag nachsehen, erwähnt der Verfasser, dass die L2-Norm eine eindeutige Lösung und die L1-Norm möglicherweise viele Lösungen enthält. Ich verstehe dies als Regularisierung, aber nicht als Verwendung der L1-Norm oder der L2-Norm in der Verlustfunktion. Wenn Sie sich Diagramme der Funktionen von skalarem x …
Eine L1L1L_1 -Norm ist (zumindest teilweise) eindeutig, da p=1p=1p=1 an der Grenze zwischen nicht konvex und konvex liegt. Eine L1L1L_1 -Norm ist die 'spärlichste' konvexe Norm (oder?). Ich verstehe, dass die euklidische Norm p=2p=2p=2 Wurzeln in der Geometrie hat und eine klare Interpretation hat, wenn Dimensionen die gleichen Einheiten haben. …
\newcommand{\diag}{\operatorname{diag}} Wir haben das Problem: mit der Annahme, dass: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Gibt es in diesem Fall eine geschlossene Lösung? Ich habe folgendes: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), und daher …
Ich modelliere 15000 Tweets für die Stimmungsvorhersage unter Verwendung eines einschichtigen LSTM mit 128 verborgenen Einheiten unter Verwendung einer word2vec-ähnlichen Darstellung mit 80 Dimensionen. Nach 1 Epoche erhalte ich eine Abstiegsgenauigkeit (38% bei Zufall = 20%). Mehr Training führt dazu, dass die Validierungsgenauigkeit abnimmt, wenn die Trainingsgenauigkeit zu steigen beginnt …
In Abschnitt 3.2 von Bishops Mustererkennung und maschinellem Lernen erörtert er die Bias-Varianz-Zerlegung und erklärt, dass für eine quadratische Verlustfunktion der erwartete Verlust in einen quadratischen Bias-Term zerlegt werden kann (der beschreibt, wie weit die durchschnittlichen Vorhersagen von den wahren abweichen Modell), ein Varianzterm (der die Streuung der Vorhersagen um …
Es gibt mehrere mathematisch anspruchsvolle Artikel, die das Bayes'sche Lasso beschreiben, aber ich möchte getesteten, korrekten JAGS-Code, den ich verwenden kann. Könnte jemand einen Beispiel-BUGS / JAGS-Code veröffentlichen, der eine regulierte logistische Regression implementiert? Jedes Schema (L1, L2, Elasticnet) wäre toll, aber Lasso wird bevorzugt. Ich frage mich auch, ob …
Ich möchte die Koeffizienten für das LASSO-Problem erhalten ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Das Problem ist, dass die Funktionen glmnet und lars unterschiedliche Antworten geben. Für die glmnet-Funktion frage ich nach den Koeffizienten von statt nur λ , aber ich bekomme immer noch andere Antworten.λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda Wird das erwartet? Wie ist die Beziehung zwischen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.