Als «regularization» getaggte Fragen

Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.

2
Die Grenze des Ridge-Regressionsschätzers für "Einheitsvarianz", wenn
Betrachten Sie die Ridge-Regression mit einer zusätzlichen Einschränkung, die voraussetzt, dass eine Einheitssumme von Quadraten hat (entsprechend eine Einheitsvarianz). Bei Bedarf kann man davon ausgehen, dass eine Einheitssumme von Quadraten hat:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Was ist die Grenze …

2
Abdeckung der Konfidenzintervalle mit regulierten Schätzungen
Angenommen, ich versuche, eine große Anzahl von Parametern aus hochdimensionalen Daten mit einer Art regulierter Schätzungen abzuschätzen. Der Regularisierer führt einige Verzerrungen in die Schätzungen ein, aber es kann immer noch ein guter Kompromiss sein, da die Verringerung der Varianz dies mehr als wettmachen sollte. Das Problem tritt auf, wenn …


5
Müssen wir immer noch Features auswählen, während wir Regularisierungsalgorithmen verwenden?
Ich habe eine Frage zum Erfordernis, Merkmalsauswahlmethoden (Wichtigkeitswert für zufällige Gesamtstrukturen oder Auswahlmethoden für univariate Merkmale usw.) zu verwenden, bevor ein statistischer Lernalgorithmus ausgeführt wird. Wir wissen, dass wir Regularisierungsstrafen für die Gewichtsvektoren einführen können, um eine Überanpassung zu vermeiden. Wenn ich also eine lineare Regression durchführen möchte, könnte ich …

1
libsvm "Maximale Anzahl von Iterationen erreicht" Warnung und Kreuzvalidierung
Ich verwende libsvm im C-SVC-Modus mit einem Polynomkern der Stufe 2 und muss mehrere SVMs trainieren. Jedes Trainingsset enthält 10 Features und 5000 Vektoren. Während des Trainings erhalte ich diese Warnung für die meisten SVMs, die ich trainiere: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Könnte …


2
Kann Regularisierung hilfreich sein, wenn wir nur an der Modellierung und nicht an der Vorhersage interessiert sind?
Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von …


1
Gibt es eine Bayes'sche Interpretation der linearen Regression mit simultaner L1- und L2-Regularisierung (auch bekannt als elastisches Netz)?
Es ist allgemein bekannt, dass eine lineare Regression mit einer 1 Strafe gleichbedeutend ist mit dem Finden der MAP-Schätzung, wenn ein Gaußscher Wert vor den Koeffizienten angegeben wird. In ähnlicher Weise ist die Verwendung einer Strafe gleichbedeutend mit der Verwendung einer Laplace-Verteilung wie zuvor.l 1l2l2l^2l1l1l^1 Es ist nicht ungewöhnlich, eine …


4
Was bedeutet "Freiheitsgrad" in neuronalen Netzen?
In Bishops Buch "Pattern Classification and Machine Learning" beschreibt es eine Technik zur Regularisierung im Kontext neuronaler Netze. Ich verstehe jedoch keinen Absatz, der beschreibt, dass während des Trainings die Anzahl der Freiheitsgrade mit der Komplexität des Modells zunimmt. Das relevante Zitat ist das folgende: Eine Alternative zur Regularisierung zur …

2
Frequentismus und Priors
Robby McKilliam sagt in einem Kommentar zu diesem Beitrag: Es sollte darauf hingewiesen werden, dass es aus Sicht der Frequentisten keinen Grund gibt, das Vorwissen nicht in das Modell zu integrieren. In diesem Sinne ist die frequentistische Ansicht einfacher, Sie haben nur ein Modell und einige Daten. Es ist nicht …

2
Warum Lasso oder ElasticNet besser abschneiden als Ridge, wenn die Merkmale miteinander korrelieren
Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung. AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf …


1
Was ist der typische Bereich möglicher Werte für den Schrumpfungsparameter bei einer bestraften Regression?
Bei der Lasso oder Ridge-Regression muss ein Schrumpfungsparameter angegeben werden, der häufig als oder . Dieser Wert wird häufig über eine Kreuzvalidierung ausgewählt, indem eine Reihe verschiedener Werte in den Trainingsdaten überprüft wird und ermittelt wird, welche die besten Werte ergeben, z. B. in den Testdaten. Welchen Wertebereich sollte man …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.