Als «regularization» getaggte Fragen

Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.

1
Warum verwendet glmnet ein "naives" elastisches Netz aus dem Originalpapier von Zou & Hastie?
Das ursprüngliche elastische Netzpapier Zou & Hastie (2005) Regularisierung und Variablenauswahl über das elastische Netz führten die elastische Nettoverlustfunktion für die lineare Regression ein (hier gehe ich davon aus, dass alle Variablen zentriert und auf die Einheitsvarianz skaliert sind): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + …

3
Der Ursprung des Begriffs "Regularisierung"
Wenn ich meinen Schülern Konzepte vorstelle, finde ich es oft lustig, ihnen zu sagen, woher die Terminologie stammt ("Regression" ist beispielsweise ein Begriff mit einer interessanten Herkunft). Ich konnte die Geschichte / den Hintergrund des Begriffs "Regularisierung" im statistischen / maschinellen Lernen nicht aufdecken. Woher stammt also der Begriff Regularisierung …


6
Warum führen kleinere Gewichte zu einfacheren Regularisierungsmodellen?
Ich habe Andrew Ngs Maschinelles Lernen-Kurs vor ungefähr einem Jahr abgeschlossen und schreibe jetzt meine High-School-Mathematikerkunde über die Funktionsweise der logistischen Regression und Techniken zur Leistungsoptimierung. Eine dieser Techniken ist natürlich die Regularisierung. Ziel der Regularisierung ist es, eine Überanpassung zu verhindern, indem die Kostenfunktion um das Ziel der Modellvereinfachung …



5
Wie können Hauptkomponenten die Vorhersagekraft einer abhängigen Variablen beibehalten (oder sogar zu besseren Vorhersagen führen)?
Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?Y.∼ XY.∼XY \sim XkkkXXXY.Y.Y Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den höchsten Eigenwerten sind, die höchsten Hauptkomponenten sind mit maximalen Abweichungen. …

3
Interpretation der Gratregulierung in der Regression
Ich habe verschiedene Fragen bezüglich der First Penalty im Rahmen der kleinsten Fehlerquadrate: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Der Ausdruck legt nahe, dass die Kovarianzmatrix von X zu einer Diagonalmatrix geschrumpft ist, was bedeutet, dass (unter der Annahme, dass die Variablen vor der Prozedur standardisiert wurden) die Korrelation …

2
Ist es sinnvoll, PCA und LDA zu kombinieren?
Angenommen, ich habe einen Datensatz für eine überwachte statistische Klassifizierungsaufgabe, z. B. über einen Bayes-Klassifizierer. Dieser Datensatz besteht aus 20 Merkmalen, und ich möchte ihn mithilfe von Dimensionalitätsreduktionstechniken wie der Hauptkomponentenanalyse (PCA) und / oder der linearen Diskriminanzanalyse (LDA) auf zwei Merkmale reduzieren. Beide Techniken projizieren die Daten auf einen …


2
Warum ist Lambda „innerhalb eines Standardfehlers vom Minimum“ ein empfohlener Wert für Lambda in einer elastischen Netto-Regression?
Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert. Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der Wert von Lambda, der den CV-Fehler plus einen …


2
Warum produziert Laplace vor der Produktion spärliche Lösungen?
Ich habe die Literatur zur Regularisierung durchgesehen und oft Abschnitte gesehen, die die L2-Regulierung mit der Gaußschen Vorgängerversion und L1 mit Laplace auf Null zentriert verbinden. Ich weiß, wie diese Priors aussehen, aber ich verstehe nicht, wie sie sich beispielsweise in linearen Modellen als Gewichte übersetzen lassen. In L1 erwarten …

2
Worum geht es bei der „Regression mit reduziertem Rang“?
Ich habe die Elemente des statistischen Lernens gelesen und konnte nicht verstehen, worum es in Abschnitt 3.7 "Schrumpfung und Auswahl mehrerer Ergebnisse" geht. Es geht um RRR (Reduced-Rank-Regression), und ich kann nur verstehen, dass es sich bei der Prämisse um ein verallgemeinertes multivariates lineares Modell handelt, bei dem die Koeffizienten …

3
Warum geben Lars und Glmnet unterschiedliche Lösungen für das Lasso-Problem?
Ich möchte die R-Pakete Larsund Glmnet, die zur Lösung des Lasso-Problems verwendet werden , besser verstehen : (für Variablen und Stichproben, siehe www.stanford.edu/~hastie/Papers/glmnet.pdf auf Seite 3)pm i n( β0β) ∈ Rp + 1[ 12 N∑i = 1N( yich- β0- xTichβ)2+ λ | | β| |l1]michn(β0β)∈Rp+1[12N∑ich=1N(yich-β0-xichTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.