Als «regularization» getaggte Fragen

Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.




5
Was ist Regularisierung im Klartext?
Im Gegensatz zu anderen Artikeln fand ich den Wikipedia- Eintrag für dieses Thema für einen Nicht-Mathematiker (wie mich) nicht lesbar. Ich habe die Grundidee verstanden, dass Sie Modelle mit weniger Regeln bevorzugen. Was ich nicht verstehe, ist, wie man von einem Regelwerk zu einem "Regularisierungs-Score" gelangt, anhand dessen man die …


2
Warum funktioniert das Schrumpfen?
Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen tatsächlich sehr groß war, warum führt ein Verkleinern des Parameters …


6
Ist die Gratregression in hohen Dimensionen nutzlos (
Betrachten Sie ein gutes altes Regressionsproblem mit Prädiktoren und Stichprobengröße . Die übliche Weisheit ist, dass der OLS-Schätzer zu hoch ist und im Allgemeinen von dem Kamm-Regressions-Schätzer übertroffen wird:Es ist Standard, eine Kreuzvalidierung zu verwenden, um einen optimalen Regularisierungsparameter . Hier verwende ich einen 10-fachen Lebenslauf. Klarstellungsaktualisierung: Wenn , verstehe …

6
Warum wird Multikollinearität in der modernen Statistik / im maschinellen Lernen nicht geprüft?
In der traditionellen Statistik wird beim Erstellen eines Modells die Multikollinearität mithilfe von Methoden wie Schätzungen des Varianzinflationsfaktors (VIF) überprüft. Beim maschinellen Lernen wird jedoch stattdessen die Regularisierung für die Featureauswahl verwendet, und es scheint nicht zu prüfen, ob Features korreliert sind überhaupt. Warum machen wir das?

3
Regularisierungsmethoden für die logistische Regression
Regularisierung mit Methoden wie Ridge, Lasso und ElasticNet ist für die lineare Regression weit verbreitet. Ich wollte Folgendes wissen: Sind diese Methoden für die logistische Regression anwendbar? Wenn ja, gibt es Unterschiede in der Art und Weise, wie sie für die logistische Regression verwendet werden müssen? Wie kann man eine …

1
Neuronale Netze: Gewichtsänderungsimpuls und Gewichtsabfall
Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern:αα\alpha wobeiE(w)ist die Fehlerfunktionw- der Vektor der Gewichte,η- Lernrate.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Gewichtsabnahme bestraft die Gewichtsveränderungen:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Die Frage ist, ob es sinnvoll …


3
Empirische Begründung für die eine Standardfehlerregel bei Verwendung der Kreuzvalidierung
Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre. Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden. …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.