Ich bin ein Software-Ingenieur, der maschinelles Lernen lernt, insbesondere durch die maschinellen Lernkurse von Andrew Ng . Beim Studium der linearen Regression mit Regularisierung habe ich Begriffe gefunden, die verwirrend sind: Regression mit L1-Regularisierung oder L2-Regularisierung LASSO Gratregression Also meine Fragen: Ist die Regression mit L1-Regularisierung genau das gleiche wie …
Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
Hinweis: Ich weiß, dass L1 die Eigenschaft zur Featureauswahl hat. Ich versuche zu verstehen, welche ich wählen soll, wenn die Funktionsauswahl völlig irrelevant ist. Wie kann man entscheiden, welche Regularisierung (L1 oder L2) verwendet werden soll? Was sind die Vor- und Nachteile jeder L1 / L2-Regularisierung? Wird empfohlen, zuerst die …
Ich verwende glmnet, um Schätzungen der Gratregression zu berechnen. Ich habe einige Ergebnisse erhalten, die mich misstrauisch gemacht haben, dass glmnet wirklich das tut, was ich denke, dass es tut. Um dies zu überprüfen, habe ich ein einfaches R-Skript geschrieben, in dem ich das Ergebnis der von solve durchgeführten Ridge-Regression …
Ich habe verschiedene Fragen bezüglich der First Penalty im Rahmen der kleinsten Fehlerquadrate: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Der Ausdruck legt nahe, dass die Kovarianzmatrix von X zu einer Diagonalmatrix geschrumpft ist, was bedeutet, dass (unter der Annahme, dass die Variablen vor der Prozedur standardisiert wurden) die Korrelation …
Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich das?
Einige und Approximationen sind gut untersucht, wie zum Beispiel der LASSO ( ) und der Ridge ( ) und wie diese in der Regression verglichen werden.L 2L1L1L_1L2L2L_2 Ich habe über die Brückenstrafe gelesen, die die verallgemeinerte Strafe ist. Vergleichen Sie das mit dem LASSO mit \ gamma = 1 und …
Betrachten Sie die Ridge-Regression mit einer zusätzlichen Einschränkung, die voraussetzt, dass eine Einheitssumme von Quadraten hat (entsprechend eine Einheitsvarianz). Bei Bedarf kann man davon ausgehen, dass eine Einheitssumme von Quadraten hat:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Was ist die Grenze …
Angenommen, ich versuche, eine große Anzahl von Parametern aus hochdimensionalen Daten mit einer Art regulierter Schätzungen abzuschätzen. Der Regularisierer führt einige Verzerrungen in die Schätzungen ein, aber es kann immer noch ein guter Kompromiss sein, da die Verringerung der Varianz dies mehr als wettmachen sollte. Das Problem tritt auf, wenn …
Für ein lineares Modell ist der Schrumpfterm immer .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) Was ist der Grund, warum wir den Verzerrungsbegriff nicht verkleinern ? Sollen wir den Bias-Term in den neuronalen Netzwerkmodellen verkleinern?β0β0\beta_0
Betrachten Sie das Standardmodell für die multiple Regression wobei gilt.ε ∼ N ( 0 , σ 2 I n )Y.= Xβ+ εY.=Xβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2ichn)ε∼N(0,σ2ichn)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Angenommen, wir führen eine Gratregression durch, indem wir allen Elementen der Diagonale von den gleichen kleinen Betrag hinzufügen :XXX …
Ich habe verstanden, wie die Gratregression die Koeffizienten geometrisch gegen Null schrumpft. Außerdem weiß ich, wie man das im speziellen "Orthonormalen Fall" beweist, aber ich bin verwirrt, wie das im allgemeinen Fall über "Spektrale Zerlegung" funktioniert.
Ich benutze das R-Paket bestraft , um geschrumpfte Koeffizientenschätzungen für einen Datensatz zu erhalten, bei dem ich viele Prädiktoren und wenig Wissen darüber habe, welche wichtig sind. Gibt es, nachdem ich die Abstimmungsparameter L1 und L2 ausgewählt und mit meinen Koeffizienten zufrieden bin, eine statistisch fundierte Möglichkeit, die Modellanpassung mit …
Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit ℓ2ℓ2\ell_2 Regularisierung) und PCA Regression: bei der Verwendung von ℓ2ℓ2\ell_2 -regularized Regression mit Hyper λλ\lambda , wenn λ→0λ→0\lambda \to 0 , dann ist die Regression auf dem Entfernen den PC - Variable entspricht …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.