Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …
Ich habe gelesen, dass das Gruppen-Lasso für die Variablenauswahl und die Sparsamkeit in einer Gruppe von Variablen verwendet wird. Ich möchte die Intuition hinter dieser Behauptung kennen. Warum wird Gruppenlasso dem Lasso vorgezogen? Warum ist der Lösungsweg des Gruppen-Lassos nicht stückweise linear?
Ich möchte ausgewählte Modelle mit First, Lasso und elastischem Netz vergleichen. Die folgende Abbildung zeigt die Koeffizientenpfade mit allen drei Methoden: Grat (Abb. A, alpha = 0), Lasso (Abb. B; alpha = 1) und elastisches Netz (Abb. C; alpha = 0,5). Die optimale Lösung hängt vom ausgewählten Lambda-Wert ab, der …
Ich höre diese Wörter immer mehr, während ich maschinelles Lernen studiere. Tatsächlich haben einige Leute die Fields-Medaille gewonnen, indem sie an Gleichungssystemen gearbeitet haben. Ich denke, dies ist ein Begriff, der sich von statistischer Physik / Mathematik zum maschinellen Lernen hinzieht. Natürlich konnten einige Leute, die ich gefragt habe, dies …
Laut diesem Tutorial zum Tiefenlernen wird Gewichtsabnahme (Regularisierung) normalerweise nicht auf die Verzerrungsterme angewendet. B Warum? Welche Bedeutung (Intuition) steckt dahinter?
Kann mich jemand auf einen (rekursiven) Online-Algorithmus für die Tikhonov-Regularisierung (regularisierte kleinste Quadrate) hinweisen? In einer Offline-Einstellung würde ich Verwendung meines ursprünglichen Datensatzes berechnen, wobei unter Verwendung der n-fachen Kreuzvalidierung gefunden wird. Ein neuer Wert kann für ein gegebenes x mit y = x ^ T \ hat \ beta …
Ich möchte diese Frage in zwei Teile teilen. Beide befassen sich mit einem verallgemeinerten linearen Modell, aber das erste befasst sich mit der Modellauswahl und das andere mit der Regularisierung. Hintergrund: Ich benutze GLMs (lineare, logistische, Gamma-Regressions-) Modelle sowohl zur Vorhersage als auch zur Beschreibung. Wenn ich mich auf die …
Gibt es gute Artikel oder Bücher, die sich mit der Verwendung von Koordinatenabstieg für L1 (Lasso) und / oder elastischer Netzregulierung für lineare Regressionsprobleme befassen?
Bei der komprimierten Abtastung gibt es einen Satz, der garantiert, dass argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc hat eine eindeutige, spärliche Lösungccc (siehe Anhang für weitere Details). Gibt es einen ähnlichen Satz für Lasso? Wenn es einen solchen Satz gibt, garantiert er …
Ich suche Literatur über negative Gratregression . Kurz gesagt, es ist eine Verallgemeinerung der linearen Regression unter Verwendung ridge negative λλ\lambda in der Schätzer β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Der positive Fall hat eine schöne Theorie: als Verlustfunktion, als Einschränkung, als Bayes-Prior ... aber ich fühle …
Hier ist ein Keras-Codebeispiel, das es verwendet: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Um eine Überanpassung von Personen zu verhindern, fügen Menschen der Kostenfunktion der linearen Regression einen Regularisierungsterm (proportional zur quadratischen Summe der Parameter des Modells) mit einem Regularisierungsparameter . Ist dieser Parameter λ der gleiche wie ein Lagrange-Multiplikator? Ist die Regularisierung also dieselbe wie die Methode des Lagrange-Multiplikators? Oder wie hängen …
Dieser Beitrag folgt diesem: Warum wird die Kammschätzung besser als die OLS, indem der Diagonale eine Konstante hinzugefügt wird? Hier ist meine Frage: Soweit ich weiß, verwendet die eine ℓ 2 -Norm (euklidischer Abstand). Aber warum verwenden wir das Quadrat dieser Norm? (Eine direkte Anwendung von ℓ 2 würde mit …
Ich habe in letzter Zeit viele Artikel über spärliche Darstellungen gesehen, und die meisten von ihnen verwenden die ℓpℓp\ell_p Norm und führen einige Minimierungen durch. Meine Frage ist, was ist die ℓpℓp\ell_p Norm und die ℓp,qℓp,q\ell_{p, q} Mischnorm? Und wie sind sie für die Regularisierung relevant? Vielen Dank
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.