Als «regularization» getaggte Fragen

Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.

1
LARS gegen Koordinatenabstieg für das Lasso
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …






5
Rekursiver (online) regularisierter Algorithmus der kleinsten Quadrate
Kann mich jemand auf einen (rekursiven) Online-Algorithmus für die Tikhonov-Regularisierung (regularisierte kleinste Quadrate) hinweisen? In einer Offline-Einstellung würde ich Verwendung meines ursprünglichen Datensatzes berechnen, wobei unter Verwendung der n-fachen Kreuzvalidierung gefunden wird. Ein neuer Wert kann für ein gegebenes x mit y = x ^ T \ hat \ beta …

2
GLM nach Modellauswahl oder Regularisierung
Ich möchte diese Frage in zwei Teile teilen. Beide befassen sich mit einem verallgemeinerten linearen Modell, aber das erste befasst sich mit der Modellauswahl und das andere mit der Regularisierung. Hintergrund: Ich benutze GLMs (lineare, logistische, Gamma-Regressions-) Modelle sowohl zur Vorhersage als auch zur Beschreibung. Wenn ich mich auf die …


4
Was führt dazu, dass Lasso bei der Funktionsauswahl instabil ist?
Bei der komprimierten Abtastung gibt es einen Satz, der garantiert, dass argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc hat eine eindeutige, spärliche Lösungccc (siehe Anhang für weitere Details). Gibt es einen ähnlichen Satz für Lasso? Wenn es einen solchen Satz gibt, garantiert er …

1
Negative Gratregression verstehen
Ich suche Literatur über negative Gratregression . Kurz gesagt, es ist eine Verallgemeinerung der linearen Regression unter Verwendung ridge negative λλ\lambda in der Schätzer β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Der positive Fall hat eine schöne Theorie: als Verlustfunktion, als Einschränkung, als Bayes-Prior ... aber ich fühle …


1
Was ist der Zusammenhang zwischen Regularisierung und der Methode der Lagrange-Multiplikatoren?
Um eine Überanpassung von Personen zu verhindern, fügen Menschen der Kostenfunktion der linearen Regression einen Regularisierungsterm (proportional zur quadratischen Summe der Parameter des Modells) mit einem Regularisierungsparameter . Ist dieser Parameter λ der gleiche wie ein Lagrange-Multiplikator? Ist die Regularisierung also dieselbe wie die Methode des Lagrange-Multiplikators? Oder wie hängen …

5
Ridge & LASSO Normen
Dieser Beitrag folgt diesem: Warum wird die Kammschätzung besser als die OLS, indem der Diagonale eine Konstante hinzugefügt wird? Hier ist meine Frage: Soweit ich weiß, verwendet die eine ℓ 2 -Norm (euklidischer Abstand). Aber warum verwenden wir das Quadrat dieser Norm? (Eine direkte Anwendung von ℓ 2 würde mit …

1
Was sind
Ich habe in letzter Zeit viele Artikel über spärliche Darstellungen gesehen, und die meisten von ihnen verwenden die ℓpℓp\ell_p Norm und führen einige Minimierungen durch. Meine Frage ist, was ist die ℓpℓp\ell_p Norm und die ℓp,qℓp,q\ell_{p, q} Mischnorm? Und wie sind sie für die Regularisierung relevant? Vielen Dank

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.