Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Betrachten Sie die Ridge-Regression mit einer zusätzlichen Einschränkung, die voraussetzt, dass eine Einheitssumme von Quadraten hat (entsprechend eine Einheitsvarianz). Bei Bedarf kann man davon ausgehen, dass eine Einheitssumme von Quadraten hat:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Was ist die Grenze …
Angenommen, ich versuche, eine große Anzahl von Parametern aus hochdimensionalen Daten mit einer Art regulierter Schätzungen abzuschätzen. Der Regularisierer führt einige Verzerrungen in die Schätzungen ein, aber es kann immer noch ein guter Kompromiss sein, da die Verringerung der Varianz dies mehr als wettmachen sollte. Das Problem tritt auf, wenn …
Ich habe verstanden, wie die Gratregression die Koeffizienten geometrisch gegen Null schrumpft. Außerdem weiß ich, wie man das im speziellen "Orthonormalen Fall" beweist, aber ich bin verwirrt, wie das im allgemeinen Fall über "Spektrale Zerlegung" funktioniert.
Ich habe eine Frage zum Erfordernis, Merkmalsauswahlmethoden (Wichtigkeitswert für zufällige Gesamtstrukturen oder Auswahlmethoden für univariate Merkmale usw.) zu verwenden, bevor ein statistischer Lernalgorithmus ausgeführt wird. Wir wissen, dass wir Regularisierungsstrafen für die Gewichtsvektoren einführen können, um eine Überanpassung zu vermeiden. Wenn ich also eine lineare Regression durchführen möchte, könnte ich …
Ich verwende libsvm im C-SVC-Modus mit einem Polynomkern der Stufe 2 und muss mehrere SVMs trainieren. Jedes Trainingsset enthält 10 Features und 5000 Vektoren. Während des Trainings erhalte ich diese Warnung für die meisten SVMs, die ich trainiere: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Könnte …
Regularisierung in der Regression (linear, logistisch ...) ist die beliebteste Methode, um Überanpassung zu reduzieren. Gibt es gute Alternativen zur Regularisierung, insbesondere für große Datenmengen (Millionen von Beobachtungen und Millionen von Merkmalen), wenn das Ziel Vorhersagegenauigkeit ist (keine Erklärung)?
Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von …
Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit ℓ2ℓ2\ell_2 Regularisierung) und PCA Regression: bei der Verwendung von ℓ2ℓ2\ell_2 -regularized Regression mit Hyper λλ\lambda , wenn λ→0λ→0\lambda \to 0 , dann ist die Regression auf dem Entfernen den PC - Variable entspricht …
Es ist allgemein bekannt, dass eine lineare Regression mit einer 1 Strafe gleichbedeutend ist mit dem Finden der MAP-Schätzung, wenn ein Gaußscher Wert vor den Koeffizienten angegeben wird. In ähnlicher Weise ist die Verwendung einer Strafe gleichbedeutend mit der Verwendung einer Laplace-Verteilung wie zuvor.l 1l2l2l^2l1l1l^1 Es ist nicht ungewöhnlich, eine …
In Bishops Buch "Pattern Classification and Machine Learning" beschreibt es eine Technik zur Regularisierung im Kontext neuronaler Netze. Ich verstehe jedoch keinen Absatz, der beschreibt, dass während des Trainings die Anzahl der Freiheitsgrade mit der Komplexität des Modells zunimmt. Das relevante Zitat ist das folgende: Eine Alternative zur Regularisierung zur …
Robby McKilliam sagt in einem Kommentar zu diesem Beitrag: Es sollte darauf hingewiesen werden, dass es aus Sicht der Frequentisten keinen Grund gibt, das Vorwissen nicht in das Modell zu integrieren. In diesem Sinne ist die frequentistische Ansicht einfacher, Sie haben nur ein Modell und einige Daten. Es ist nicht …
Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung. AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf …
Wenn wir mit einer Datenmenge , Lasso anwenden und eine Lösung β L erhalten , können wir Lasso erneut auf die Datenmenge ( X S , Y ) anwenden , wobei S die Menge ungleich Null ist Indizes von β L , um eine Lösung zu erhalten , β R …
Bei der Lasso oder Ridge-Regression muss ein Schrumpfungsparameter angegeben werden, der häufig als oder . Dieser Wert wird häufig über eine Kreuzvalidierung ausgewählt, indem eine Reihe verschiedener Werte in den Trainingsdaten überprüft wird und ermittelt wird, welche die besten Werte ergeben, z. B. in den Testdaten. Welchen Wertebereich sollte man …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.