Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Das ursprüngliche elastische Netzpapier Zou & Hastie (2005) Regularisierung und Variablenauswahl über das elastische Netz führten die elastische Nettoverlustfunktion für die lineare Regression ein (hier gehe ich davon aus, dass alle Variablen zentriert und auf die Einheitsvarianz skaliert sind): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + …
Wenn ich meinen Schülern Konzepte vorstelle, finde ich es oft lustig, ihnen zu sagen, woher die Terminologie stammt ("Regression" ist beispielsweise ein Begriff mit einer interessanten Herkunft). Ich konnte die Geschichte / den Hintergrund des Begriffs "Regularisierung" im statistischen / maschinellen Lernen nicht aufdecken. Woher stammt also der Begriff Regularisierung …
Ich habe in einer Reihe von Referenzen gelesen, dass die Lasso-Schätzung für den Regressionsparametervektor dem posterioren Modus von in dem die vorherige Verteilung für jedes eine doppelte Exponentialverteilung ist (auch als Laplace-Verteilung bekannt).BBBBBBBiBiB_i Ich habe versucht, dies zu beweisen, kann jemand die Details ausarbeiten?
Ich habe Andrew Ngs Maschinelles Lernen-Kurs vor ungefähr einem Jahr abgeschlossen und schreibe jetzt meine High-School-Mathematikerkunde über die Funktionsweise der logistischen Regression und Techniken zur Leistungsoptimierung. Eine dieser Techniken ist natürlich die Regularisierung. Ziel der Regularisierung ist es, eine Überanpassung zu verhindern, indem die Kostenfunktion um das Ziel der Modellvereinfachung …
Ich habe einmal eine Methode gehört, das Lasso zweimal zu verwenden (wie ein Doppel-Lasso), bei der Sie Lasso für die ursprüngliche Menge von Variablen ausführen, z. B. S1, eine dünn besetzte Menge mit der Bezeichnung S2 erhalten und dann erneut Lasso für die Menge S2 ausführen, um die Menge S3 …
Nehmen Sie für die Lasso-Regression dass die beste Lösung (zum Beispiel minimaler Testfehler) Merkmale auswählt . so dass .k β l a s s o = ( β l a s s o 1 , β l a s s O 2 , . . . , β l aL …
Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?Y.∼ XY.∼XY \sim XkkkXXXY.Y.Y Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den höchsten Eigenwerten sind, die höchsten Hauptkomponenten sind mit maximalen Abweichungen. …
Ich habe verschiedene Fragen bezüglich der First Penalty im Rahmen der kleinsten Fehlerquadrate: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Der Ausdruck legt nahe, dass die Kovarianzmatrix von X zu einer Diagonalmatrix geschrumpft ist, was bedeutet, dass (unter der Annahme, dass die Variablen vor der Prozedur standardisiert wurden) die Korrelation …
Angenommen, ich habe einen Datensatz für eine überwachte statistische Klassifizierungsaufgabe, z. B. über einen Bayes-Klassifizierer. Dieser Datensatz besteht aus 20 Merkmalen, und ich möchte ihn mithilfe von Dimensionalitätsreduktionstechniken wie der Hauptkomponentenanalyse (PCA) und / oder der linearen Diskriminanzanalyse (LDA) auf zwei Merkmale reduzieren. Beide Techniken projizieren die Daten auf einen …
Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich das?
Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert. Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der Wert von Lambda, der den CV-Fehler plus einen …
Einige und Approximationen sind gut untersucht, wie zum Beispiel der LASSO ( ) und der Ridge ( ) und wie diese in der Regression verglichen werden.L 2L1L1L_1L2L2L_2 Ich habe über die Brückenstrafe gelesen, die die verallgemeinerte Strafe ist. Vergleichen Sie das mit dem LASSO mit \ gamma = 1 und …
Ich habe die Literatur zur Regularisierung durchgesehen und oft Abschnitte gesehen, die die L2-Regulierung mit der Gaußschen Vorgängerversion und L1 mit Laplace auf Null zentriert verbinden. Ich weiß, wie diese Priors aussehen, aber ich verstehe nicht, wie sie sich beispielsweise in linearen Modellen als Gewichte übersetzen lassen. In L1 erwarten …
Ich habe die Elemente des statistischen Lernens gelesen und konnte nicht verstehen, worum es in Abschnitt 3.7 "Schrumpfung und Auswahl mehrerer Ergebnisse" geht. Es geht um RRR (Reduced-Rank-Regression), und ich kann nur verstehen, dass es sich bei der Prämisse um ein verallgemeinertes multivariates lineares Modell handelt, bei dem die Koeffizienten …
Ich möchte die R-Pakete Larsund Glmnet, die zur Lösung des Lasso-Problems verwendet werden , besser verstehen : (für Variablen und Stichproben, siehe www.stanford.edu/~hastie/Papers/glmnet.pdf auf Seite 3)pm i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yich- β0- xTichβ)2+ λ | | β| |l1]michn(β0β)∈Rp+1[12N∑ich=1N(yich-β0-xichTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.