Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen . Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum …
Bei der Auswahl des Regularisierungsparameters Lambda in Ridge oder Lasso wird empfohlen, verschiedene Lambda-Werte auszuprobieren, den Fehler im Validierungssatz zu messen und schließlich den Lambda-Wert auszuwählen, der den niedrigsten Fehler zurückgibt. Es ist mir kein Problem, wenn die Funktion f (Lambda) = Fehler konvex ist. Könnte es so sein? Dh …
Ich habe bereits eine Vorstellung von den Vor- und Nachteilen der Gratregression und des LASSO. Für das LASSO ergibt der L1-Strafausdruck einen Vektor mit geringem Koeffizienten, der als Merkmalsauswahlmethode angesehen werden kann. Es gibt jedoch einige Einschränkungen für den LASSO. Wenn die Merkmale eine hohe Korrelation aufweisen, wählt der LASSO …
In der Zwischenzeit studiere ich LASSO (Operator für geringste absolute Schrumpfung und Auswahl). Ich sehe, dass der optimale Wert für den Regularisierungsparameter durch Kreuzvalidierung ausgewählt werden kann. Ich sehe auch in der Gratregression und vielen Methoden, die Regularisierung anwenden, dass wir CV verwenden können, um den optimalen Regularisierungsparameter zu finden …
Mit Regularisierungstechniken beziehe ich mich auf Lasso, Gratregression, elastisches Netz und dergleichen. Stellen Sie sich ein Vorhersagemodell für Gesundheitsdaten vor, das demografische Daten und Diagnosedaten enthält, bei denen die Aufenthaltsdauer für stationäre Aufenthalte vorhergesagt wird. Für einige Personen gibt es mehrere LOS-Beobachtungen (dh mehr als eine IP-Episode) während des Basiszeitraums, …
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen im vergangenen Jahr . Welche Open-Source-Implementierungen - in jeder Sprache - gibt es, die Lasso-Regularisierungspfade für die lineare Regression …
Mein Verständnis der LASSO-Regression ist, dass die Regressionskoeffizienten ausgewählt werden, um das Minimierungsproblem zu lösen: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t In der Praxis wird dies mit einem Lagrange-Multiplikator durchgeführt, wodurch das Problem gelöst werden muss minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 …
In mehreren Antworten habe ich gesehen, dass CrossValidated-Benutzer OP vorschlagen, frühe Artikel über Lasso, Ridge und Elastic Net zu finden. Was sind für die Nachwelt die wegweisenden Arbeiten zu Lasso, Ridge und Elastic Net?
Wenn ich ein Design haben Matrix , wobei n die Anzahl der Beobachtungen der Dimension d , was die Komplexität der Lösung für β = argmin β 1X.∈ R.n × dX∈Rn×dX\in\mathcal{R}^{n\times d}nnndddmit LASSO, wrtnundd? Ich denke, die Antwort sollte sich darauf beziehen, wieeineLASSO-Iteration mit diesen Parametern skaliert, und nicht darauf, …
Ich war kürzlich bei einigen Statistikgesprächen über das Lasso (Regularisierung) und ein Punkt, der immer wieder auftaucht, ist, dass wir nicht wirklich verstehen, warum das Lasso funktioniert oder warum es so gut funktioniert. Ich frage mich, worauf sich diese Aussage bezieht. Natürlich verstehe ich, warum das Lasso technisch funktioniert, um …
Wie der Titel schon sagt, versuche ich, die Ergebnisse von glmnet linear mit dem LBFGS-Optimierer aus der Bibliothek zu replizieren lbfgs. Mit diesem Optimierer können wir einen L1-Regularisierungsbegriff hinzufügen, ohne uns um die Differenzierbarkeit kümmern zu müssen, solange unsere Zielfunktion (ohne den L1-Regularisierungsbegriff) konvex ist. Das Problem der linearen Regression …
Es ist bekannt (z. B. auf dem Gebiet der Druckabtastung ), dass die Norm "sparsity-induzierend" ist, in dem Sinne, dass wenn wir die funktionale (für feste Matrix und Vektor ) minimieren für groß genug \ lambda> 0 , wir haben wahrscheinlich für viele Auswahlmöglichkeiten von A , \ vec {b} …
Es gibt viele Methoden zur Durchführung der Regularisierung - beispielsweise die Regularisierung , und . Laut Friedman Hastie & Tibsharani hängt der beste Regularisierer vom Problem ab: nämlich der Art der tatsächlichen Zielfunktion, der jeweils verwendeten Basis, dem Signal-Rausch-Verhältnis und der Stichprobengröße.L 1 L 2L0L0L_0L1L1L_1L2L2L_2 Gibt es empirische Untersuchungen zum …
Ich verwende Bidirectional RNN, um ein Ereignis mit unausgeglichenem Auftreten zu erkennen. Die positive Klasse ist 100-mal seltener als die negative Klasse. Obwohl keine Regularisierung verwendet wird, kann ich eine 100% ige Genauigkeit für das Zugset und 30% für das Validierungsset erhalten. Ich schalte die 12-Regularisierung ein und das Ergebnis …
Wie führe ich eine nicht negative Gratregression durch? Nicht-negatives Lasso ist in verfügbar scikit-learn, aber für Ridge kann ich die Nicht-Negativität von Betas nicht erzwingen, und tatsächlich erhalte ich negative Koeffizienten. Weiß jemand warum das so ist? Kann ich Ridge auch in Bezug auf reguläre kleinste Quadrate implementieren? Dies wurde …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.