Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Ich verstehe, dass wir Regularisierung in einem Regressionsproblem der kleinsten Quadrate als anwenden können w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] und dass dieses Problem eine geschlossene Lösung hat als: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Wir sehen, dass in der 2. Gleichung die Regularisierung einfach λλ\lambda zur Diagonale von \ …
Ich lernte gerade die Gratregression und war etwas verwirrt über die Bestrafung komplexerer Modelle (oder die Definition eines komplexeren Modells). Soweit ich weiß, korreliert die Komplexität des Modells nicht unbedingt mit der Polynomordnung. Also: ist ein komplexeres Modell als:2 + 3 + 4 x2+ 5 x3+ 6 x42+3+4x2+5x3+6x4 2 + …
Ich untersuche den Unterschied zwischen Regularisierung in der RKHS-Regression und linearer Regression, aber es fällt mir schwer, den entscheidenden Unterschied zwischen beiden zu erfassen. Bei gegebenen Eingabe-Ausgabe-Paaren möchte ich eine Funktion wie folgt schätzen: wobei eine Kernelfunktion ist. Die Koeffizienten können entweder durch Lösen von wobei mit etwas Missbrauch der …
In den Vorlesungsnotizen der dritten Woche der Coursera Machine Learning-Klasse von Andrew Ng wird der Kostenfunktion ein Begriff hinzugefügt, um die Regularisierung zu implementieren: J.+( θ ) = J.( θ ) + λ2 m∑j = 1nθ2jJ.+(θ)=J.(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 In den Vorlesungsunterlagen heißt es: Wir könnten auch …
Wenn , kann das Problem der kleinsten Quadrate, das dem Wert von eine sphärische Beschränkung auferlegt , als für ein überbestimmtes System. \ | \ cdot \ | _2 ist die euklidische Norm eines Vektors.y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min ‖y−Xβ‖22s.t. ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 …
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
Ich hatte ein Vorstellungsgespräch für eine Stelle in Data Science. Während des Interviews wurde ich gefragt, was ich tun soll, um sicherzustellen, dass das Modell nicht überpasst. Meine erste Antwort war die Verwendung einer Kreuzvalidierung, um die Leistung des Modells zu bewerten. Der Interviewer sagte jedoch, dass selbst eine Kreuzvalidierung …
Es gibt so viele Regularisierungstechniken, dass es nicht praktisch ist, alle Kombinationen auszuprobieren: l1 / l2 max norm aussteigen frühes Anhalten ... Es scheint, dass die meisten Menschen mit einer Kombination aus Ausfall und frühem Abbruch zufrieden sind: Gibt es Fälle, in denen die Verwendung anderer Techniken sinnvoll ist? Wenn …
In ihrer wegweisenden Arbeit 'Least Angle Regression' beschreiben Efron et al. Eine einfache Modifikation des LARS-Algorithmus, mit der vollständige LASSO-Regularisierungspfade berechnet werden können. l1l1l_1∥β∥1‖β‖1\Vert \beta \Vert_1 Es scheint jedoch, dass die meisten verfügbaren Pakete den Regularisierungspfad in Bezug auf den LASSO-Bestrafungskoeffizienten bereitstellen (z. B. LARS in R, wo Sie mit …
Ich habe festgestellt, dass die Funktion Lasso in MATLAB relativ langsam ist. Ich habe viele Regressionsprobleme mit normalerweise 1 bis 100 Prädiktoren und 200 bis 500 Beobachtungen. In einigen Fällen erwies sich Lasso als extrem langsam (um ein Regressionsproblem zu lösen, dauerte es einige Minuten). Ich entdeckte, dass dies der …
Als ich über den xgboost-Algorithmus recherchierte, ging ich die Dokumentation durch . Bei diesem Ansatz werden Bäume unter Verwendung der Komplexitätsdefinition wobei und Parameter sind, die Anzahl von ist Terminalblätter und ist die Punktzahl in jedem Blatt.Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j Ich frage mich: …
\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …
In Anlehnung an meine frühere Frage lautet die Lösung der normalen Gleichungen für die Gratregression wie folgt: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty Könnten Sie die Regularisierungsparameter jede Führung bieten für die Wahl . Da zusätzlich die Diagonale von mit der Anzahl der Beobachtungen wachsen , sollte auch eine Funktion sein ?λλ\lambdaXTXXTXX^TXmmmλλ\lambdammm
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.