Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Wenn Sie sich ein Histogramm als Schätzung der Dichtefunktion vorstellen, ist es sinnvoll, sich die Behältergröße als einen Parameter vorzustellen, der die lokale Struktur dieser Funktion einschränkt? Gibt es auch eine bessere Möglichkeit, diese Argumentation zu artikulieren?
Wir können eine lineare Regression ohne Zufälligkeit simulieren, was bedeutet, dass wir y=Xβy=Xβy=X\beta anstelle von y=Xβ+ϵy=Xβ+ϵy=X\beta+\epsilon . Wenn wir dann ein lineares Modell anpassen, sind die Koeffizienten identisch mit der "Grundwahrheit". Hier ist ein Beispiel. set.seed(0) n <- 1e5 p <- 3 X <- matrix(rnorm(n*p), ncol=p) beta <- runif(p) # …
Ich habe das folgende Setup für ein Forschungsprojekt im Bereich Finanzen / Maschinelles Lernen an meiner Universität: Ich wende ein (Deep) Neural Network (MLP) mit der folgenden Struktur in Keras / Theano an, um überdurchschnittliche Aktien (Label 1) von unterdurchschnittlichen Aktien zu unterscheiden (Label 1). Etikett 0). Erstens verwende ich …
Eine grundlegende Eigenschaft der Regression mit zufälligen Effekten besteht darin, dass die zufälligen Abschnittsschätzungen in Abhängigkeit von der relativen Varianz jeder Schätzung in Richtung des Gesamtmittelwerts der Antwort "geschrumpft" werden. U.^j= ρjy¯j+ ( 1 - ρj) y¯U.^j=ρjy¯j+(1- -ρj)y¯\hat{U}_j = \rho_j \bar{y}_j + (1-\rho_j)\bar{y} wobeiρj= τ2/ ( τ2+ σ2/ nj) .ρj=τ2/.(τ2+σ2/.nj).\rho_j …
Ich regressiere einen kontinuierlichen Prädiktor für über 60 Variablen (sowohl kontinuierlich als auch kategorial) mit LASSO (glmnet). Bei der Untersuchung des variablen Trace-Diagramms stelle ich fest, dass eine der Schlüsselvariablen mit zunehmendem log Lambda einen Koeffizienten aufweist, der tatsächlich zunimmt. Dann, nach einem bestimmten Punkt, beginnt es abzunehmen, wie wir …
ich wundere mich über die optimale Gitterfeinheit und Wie ist das Verhältnis zwischen Gitterfeinheit und Überanpassung? bei Regularisierungsmethoden wie LASSO, Ridge Regression oder Elastic Net. Angenommen, ich möchte ein Regressionsmodell mit LASSO an eine Stichprobe von 500 Beobachtungen anpassen (ich habe keine Daten; dies ist nur ein Beispiel). Es sei …
Ich versuche zu verstehen , wie Regularisierung in der Bezeichnung der Projektionen auf ein Werk l∗l∗l_* Kugel und euklidische Projektion auf die simplex. Ich bin mir nicht sicher, ob ich verstehe, was wir meinen, wenn wir den Gewichtsvektor auf die l1l1l_1 oder l2l2l_2 Bälle projizieren . Ich kann das Konzept …
Es wird normalerweise gesagt, dass Prioritäten in der Bayes'schen Statistik als Regularisierungsfaktoren angesehen werden können, da sie Lösungen benachteiligen, bei denen der Prior eine geringe Wahrscheinlichkeitsdichte aufweist. Dann ist dieses einfache Modell gegeben, dessen MLE-Parameter sind: argmaxμ N(y;μ,σ)argmaxμ N(y;μ,σ) argmax_{\mu} \text{ } \mathcal{N}(y; \mu, \sigma) und ich füge einen Prior …
Wenn wir unterschiedliche Werte des Parameters auswählen , können wir Lösungen mit unterschiedlichen Sparsity-Levels erhalten. Bedeutet dies, dass der Regularisierungspfad die Auswahl der Koordinate ist, die eine schnellere Konvergenz erzielen könnte? Ich bin ein wenig verwirrt, obwohl ich oft von Sparsamkeit gehört habe. Könnten Sie bitte eine einfache Beschreibung der …
Ich verstehe, dass die Koeffizienten einer logistischen Gleichung als ungerades Verhältnis interpretiert werden können. Wie ändert sich die Interpretation der Koeffizienten, wenn ein Regularisierungsterm zur Kontrolle der Überanpassung hinzugefügt wird?
Ich versuche, die MAP-Schätzung für ein Modell durch Gradientenabstieg zu finden. Mein Prior ist ein multivariater Gaußscher mit einer bekannten Kovarianzmatrix. Auf konzeptioneller Ebene glaube ich zu wissen, wie man das macht, aber ich hatte auf Hilfe bei den Details gehofft. Insbesondere wenn es einen einfacheren Weg gibt, sich dem …
Ich versuche, die Manifold-Regularisierung in Support Vector Machines (SVMs) in Matlab zu implementieren. Ich folge den Anweisungen in der Arbeit von Belkin et al. (2006), da ist die Gleichung drin: f∗=argminf∈Hk∑li=1V(xi,yi,f)+γA∥f∥2A+γI∥f∥2If∗=argminf∈Hk∑i=1lV(xi,yi,f)+γA‖f‖A2+γI‖f‖I2f^{*} = \text{argmin}_{f \in H_k}\sum_{i=1}^{l}V\left(x_i,y_i,f\right)+\gamma_{A}\left\| f \right\|_{A}^{2}+\gamma_{I}\left\| f \right\|_{I}^{2} wobei V eine Verlustfunktion ist und das Gewicht der Norm der …
Ich habe die GLMNET-Version des elastischen Netzes für die lineare Regression mit einer anderen Software als R implementiert. Ich habe meine Ergebnisse mit der R-Funktion glmnet im Lasso-Modus für Diabetesdaten verglichen . Die Variablenauswahl ist in Ordnung, wenn der Wert des Parameters (Lambda) variiert wird, aber ich erhalte leicht unterschiedliche …
Wir haben eine Antwort Y∈RnY∈RnY \in \Bbb R^n und Prädiktoren X=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} Das Problem, das wir lösen wollen, ist argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 Es ist jedoch NP-schwer, also lösen …
Ich freue mich darauf, mehr über die regulierten Regressionstechniken wie Ridge- und Lasso-Regression zu erfahren. Ich würde gerne wissen, was mit diesen Techniken im Vergleich zum linearen Regressionsmodell erreicht werden kann. Auch in welcher Situation sollten wir diese Techniken anwenden. Und was unterscheidet diese beiden Techniken? Ich möchte das Konzept …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.