Als «regularization» getaggte Fragen

Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.


2
Ist es möglich, eine logistische Regression ohne Zufälligkeit zu simulieren?
Wir können eine lineare Regression ohne Zufälligkeit simulieren, was bedeutet, dass wir y=Xβy=Xβy=X\beta anstelle von y=Xβ+ϵy=Xβ+ϵy=X\beta+\epsilon . Wenn wir dann ein lineares Modell anpassen, sind die Koeffizienten identisch mit der "Grundwahrheit". Hier ist ein Beispiel. set.seed(0) n <- 1e5 p <- 3 X <- matrix(rnorm(n*p), ncol=p) beta <- runif(p) # …


1
L2-Regularisierung vs. Schrumpfen mit zufälligen Effekten
Eine grundlegende Eigenschaft der Regression mit zufälligen Effekten besteht darin, dass die zufälligen Abschnittsschätzungen in Abhängigkeit von der relativen Varianz jeder Schätzung in Richtung des Gesamtmittelwerts der Antwort "geschrumpft" werden. U.^j= ρjy¯j+ ( 1 - ρj) y¯U.^j=ρjy¯j+(1- -ρj)y¯\hat{U}_j = \rho_j \bar{y}_j + (1-\rho_j)\bar{y} wobeiρj= τ2/ ( τ2+ σ2/ nj) .ρj=τ2/.(τ2+σ2/.nj).\rho_j …

1
Der variable Koeffizient steigt und fällt dann mit abnehmendem Lambda (LASSO)
Ich regressiere einen kontinuierlichen Prädiktor für über 60 Variablen (sowohl kontinuierlich als auch kategorial) mit LASSO (glmnet). Bei der Untersuchung des variablen Trace-Diagramms stelle ich fest, dass eine der Schlüsselvariablen mit zunehmendem log Lambda einen Koeffizienten aufweist, der tatsächlich zunimmt. Dann, nach einem bestimmten Punkt, beginnt es abzunehmen, wie wir …


1
Regularisierung und Projektion auf die
Ich versuche zu verstehen , wie Regularisierung in der Bezeichnung der Projektionen auf ein Werk l∗l∗l_* Kugel und euklidische Projektion auf die simplex. Ich bin mir nicht sicher, ob ich verstehe, was wir meinen, wenn wir den Gewichtsvektor auf die l1l1l_1 oder l2l2l_2 Bälle projizieren . Ich kann das Konzept …

2
Ist MLE mit Regularisierung eine Bayes'sche Methode?
Es wird normalerweise gesagt, dass Prioritäten in der Bayes'schen Statistik als Regularisierungsfaktoren angesehen werden können, da sie Lösungen benachteiligen, bei denen der Prior eine geringe Wahrscheinlichkeitsdichte aufweist. Dann ist dieses einfache Modell gegeben, dessen MLE-Parameter sind: argmaxμ N(y;μ,σ)argmaxμ N(y;μ,σ) argmax_{\mu} \text{ } \mathcal{N}(y; \mu, \sigma) und ich füge einen Prior …

2
Was bedeutet Regularisierungspfad bei LASSO oder verwandten Sparsity-Problemen?
Wenn wir unterschiedliche Werte des Parameters auswählen , können wir Lösungen mit unterschiedlichen Sparsity-Levels erhalten. Bedeutet dies, dass der Regularisierungspfad die Auswahl der Koordinate ist, die eine schnellere Konvergenz erzielen könnte? Ich bin ein wenig verwirrt, obwohl ich oft von Sparsamkeit gehört habe. Könnten Sie bitte eine einfache Beschreibung der …


2
Gradient der multivariaten Gaußschen Log-Wahrscheinlichkeit
Ich versuche, die MAP-Schätzung für ein Modell durch Gradientenabstieg zu finden. Mein Prior ist ein multivariater Gaußscher mit einer bekannten Kovarianzmatrix. Auf konzeptioneller Ebene glaube ich zu wissen, wie man das macht, aber ich hatte auf Hilfe bei den Details gehofft. Insbesondere wenn es einen einfacheren Weg gibt, sich dem …

1
Vielfältige Regularisierung unter Verwendung eines Laplace-Graphen in SVM
Ich versuche, die Manifold-Regularisierung in Support Vector Machines (SVMs) in Matlab zu implementieren. Ich folge den Anweisungen in der Arbeit von Belkin et al. (2006), da ist die Gleichung drin: f∗=argminf∈Hk∑li=1V(xi,yi,f)+γA∥f∥2A+γI∥f∥2If∗=argminf∈Hk∑i=1lV(xi,yi,f)+γA‖f‖A2+γI‖f‖I2f^{*} = \text{argmin}_{f \in H_k}\sum_{i=1}^{l}V\left(x_i,y_i,f\right)+\gamma_{A}\left\| f \right\|_{A}^{2}+\gamma_{I}\left\| f \right\|_{I}^{2} wobei V eine Verlustfunktion ist und das Gewicht der Norm der …

2
Wie wird der Achsenabschnitt in GLMnet berechnet?
Ich habe die GLMNET-Version des elastischen Netzes für die lineare Regression mit einer anderen Software als R implementiert. Ich habe meine Ergebnisse mit der R-Funktion glmnet im Lasso-Modus für Diabetesdaten verglichen . Die Variablenauswahl ist in Ordnung, wenn der Wert des Parameters (Lambda) variiert wird, aber ich erhalte leicht unterschiedliche …

1
Sparse lineare Regression 0-Norm und 1-Norm
Wir haben eine Antwort Y∈RnY∈RnY \in \Bbb R^n und Prädiktoren X=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} Das Problem, das wir lösen wollen, ist argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 Es ist jedoch NP-schwer, also lösen …

2
Wann wird die Ridge-Regression und die Lasso-Regression verwendet? Was kann erreicht werden, wenn diese Techniken anstelle des linearen Regressionsmodells verwendet werden?
Ich freue mich darauf, mehr über die regulierten Regressionstechniken wie Ridge- und Lasso-Regression zu erfahren. Ich würde gerne wissen, was mit diesen Techniken im Vergleich zum linearen Regressionsmodell erreicht werden kann. Auch in welcher Situation sollten wir diese Techniken anwenden. Und was unterscheidet diese beiden Techniken? Ich möchte das Konzept …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.