Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Ich lese die Bücher über lineare Regression. Es gibt einige Sätze zur L1- und L2-Norm. Ich kenne sie, verstehe nur nicht, warum L1-Norm für spärliche Modelle. Kann jemand eine einfache Erklärung geben?
Ich habe Elemente des statistischen Lernens gelesen und möchte wissen, warum das Lasso eine variable Auswahl bietet und die Gratregression nicht. Beide Methoden minimieren die verbleibende Quadratsumme und beschränken die möglichen Werte der Parameter . Für das Lasso ist die Bedingung , während sie für den Kamm für einige ist …
Im Gegensatz zu anderen Artikeln fand ich den Wikipedia- Eintrag für dieses Thema für einen Nicht-Mathematiker (wie mich) nicht lesbar. Ich habe die Grundidee verstanden, dass Sie Modelle mit weniger Regeln bevorzugen. Was ich nicht verstehe, ist, wie man von einem Regelwerk zu einem "Regularisierungs-Score" gelangt, anhand dessen man die …
Ich lese dies weiter und ich kann es intuitiv sehen, aber wie geht man von der L2-Regularisierung zu der Aussage, dass dies analytisch ein Gaußscher Prior ist? Gleiches gilt für die Aussage, dass L1 einem Laplace-Prior entspricht. Weitere Hinweise wären toll.
Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen tatsächlich sehr groß war, warum führt ein Verkleinern des Parameters …
Wann immer Regularisierung verwendet wird, wird sie häufig zur Kostenfunktion hinzugefügt, wie in der folgenden Kostenfunktion. Dies ist für mich intuitiv sinnvoll, da das minimiert wird Kostenfunktion bedeutet, den Fehler (den linken Term) zu minimieren und die Größen der Koeffizienten (den rechten Term) gleichzeitig zu minimieren (oder zumindest die beiden …
Betrachten Sie ein gutes altes Regressionsproblem mit Prädiktoren und Stichprobengröße . Die übliche Weisheit ist, dass der OLS-Schätzer zu hoch ist und im Allgemeinen von dem Kamm-Regressions-Schätzer übertroffen wird:Es ist Standard, eine Kreuzvalidierung zu verwenden, um einen optimalen Regularisierungsparameter . Hier verwende ich einen 10-fachen Lebenslauf. Klarstellungsaktualisierung: Wenn , verstehe …
In der traditionellen Statistik wird beim Erstellen eines Modells die Multikollinearität mithilfe von Methoden wie Schätzungen des Varianzinflationsfaktors (VIF) überprüft. Beim maschinellen Lernen wird jedoch stattdessen die Regularisierung für die Featureauswahl verwendet, und es scheint nicht zu prüfen, ob Features korreliert sind überhaupt. Warum machen wir das?
Regularisierung mit Methoden wie Ridge, Lasso und ElasticNet ist für die lineare Regression weit verbreitet. Ich wollte Folgendes wissen: Sind diese Methoden für die logistische Regression anwendbar? Wenn ja, gibt es Unterschiede in der Art und Weise, wie sie für die logistische Regression verwendet werden müssen? Wie kann man eine …
Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern:αα\alpha wobeiE(w)ist die Fehlerfunktionw- der Vektor der Gewichte,η- Lernrate.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Gewichtsabnahme bestraft die Gewichtsveränderungen:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Die Frage ist, ob es sinnvoll …
Ich habe einige Probleme mit der Herleitung der Lösung für die Gratregression. Ich kenne die Regressionslösung ohne den Regularisierungsbegriff: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.
Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre. Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden. …
Ein Problem, das ich im Zusammenhang mit neuronalen Netzen im Allgemeinen und Deep Neural Networks im Besonderen häufig gesehen habe, ist, dass sie "datenhungrig" sind - das heißt, dass sie nur dann eine gute Leistung erbringen, wenn wir einen großen Datenbestand haben mit dem man das netzwerk trainiert. Meines Wissens …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.