Statistiken und Big Data regularization

2

Die Grenze des Ridge-Regressionsschätzers für "Einheitsvarianz", wenn

Betrachten Sie die Ridge-Regression mit einer zusätzlichen Einschränkung, die voraussetzt, dass eine Einheitssumme von Quadraten hat (entsprechend eine Einheitsvarianz). Bei Bedarf kann man davon ausgehen, dass eine Einheitssumme von Quadraten hat:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Was ist die Grenze …

21 pca regularization ridge-regression partial-least-squares constrained-regression

2

Abdeckung der Konfidenzintervalle mit regulierten Schätzungen

Angenommen, ich versuche, eine große Anzahl von Parametern aus hochdimensionalen Daten mit einer Art regulierter Schätzungen abzuschätzen. Der Regularisierer führt einige Verzerrungen in die Schätzungen ein, aber es kann immer noch ein guter Kompromiss sein, da die Verringerung der Varianz dies mehr als wettmachen sollte. Das Problem tritt auf, wenn …

21 confidence-interval bias regularization ridge-regression coverage-probability

1

Der Nachweis von Schrumpfungskoeffizienten mittels Gratregression durch "spektrale Zerlegung"

Ich habe verstanden, wie die Gratregression die Koeffizienten geometrisch gegen Null schrumpft. Außerdem weiß ich, wie man das im speziellen "Orthonormalen Fall" beweist, aber ich bin verwirrt, wie das im allgemeinen Fall über "Spektrale Zerlegung" funktioniert.

20 regression multiple-regression regularization ridge-regression svd

5

Müssen wir immer noch Features auswählen, während wir Regularisierungsalgorithmen verwenden?

Ich habe eine Frage zum Erfordernis, Merkmalsauswahlmethoden (Wichtigkeitswert für zufällige Gesamtstrukturen oder Auswahlmethoden für univariate Merkmale usw.) zu verwenden, bevor ein statistischer Lernalgorithmus ausgeführt wird. Wir wissen, dass wir Regularisierungsstrafen für die Gewichtsvektoren einführen können, um eine Überanpassung zu vermeiden. Wenn ich also eine lineare Regression durchführen möchte, könnte ich …

20 regression machine-learning feature-selection lasso regularization

1

libsvm "Maximale Anzahl von Iterationen erreicht" Warnung und Kreuzvalidierung

Ich verwende libsvm im C-SVC-Modus mit einem Polynomkern der Stufe 2 und muss mehrere SVMs trainieren. Jedes Trainingsset enthält 10 Features und 5000 Vektoren. Während des Trainings erhalte ich diese Warnung für die meisten SVMs, die ich trainiere: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Könnte …

20 machine-learning cross-validation svm regularization libsvm

5

Vermeiden Sie eine Überanpassung bei der Regression: Alternativen zur Regularisierung

Regularisierung in der Regression (linear, logistisch ...) ist die beliebteste Methode, um Überanpassung zu reduzieren. Gibt es gute Alternativen zur Regularisierung, insbesondere für große Datenmengen (Millionen von Beobachtungen und Millionen von Merkmalen), wenn das Ziel Vorhersagegenauigkeit ist (keine Erklärung)?

19 regression regularization overfitting

2

Kann Regularisierung hilfreich sein, wenn wir nur an der Modellierung und nicht an der Vorhersage interessiert sind?

Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von …

19 cross-validation econometrics model-selection interpretation regularization

3

Beziehung zwischen Kammregression und PCA-Regression

Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit ℓ2ℓ2\ell_2 Regularisierung) und PCA Regression: bei der Verwendung von ℓ2ℓ2\ell_2 -regularized Regression mit Hyper λλ\lambda , wenn λ→0λ→0\lambda \to 0 , dann ist die Regression auf dem Entfernen den PC - Variable entspricht …

19 regression pca regularization ridge-regression

1

Gibt es eine Bayes'sche Interpretation der linearen Regression mit simultaner L1- und L2-Regularisierung (auch bekannt als elastisches Netz)?

Es ist allgemein bekannt, dass eine lineare Regression mit einer 1 Strafe gleichbedeutend ist mit dem Finden der MAP-Schätzung, wenn ein Gaußscher Wert vor den Koeffizienten angegeben wird. In ähnlicher Weise ist die Verwendung einer Strafe gleichbedeutend mit der Verwendung einer Laplace-Verteilung wie zuvor.l 1l2l2l^2l1l1l^1 Es ist nicht ungewöhnlich, eine …

17 regression bayesian regularization prior elastic-net

4

Wie erklärt man die Regularisierung von Schulabbrechern in einfachen Worten?

Wie würden Sie vorgehen, wenn Sie eine halbe Seite haben, um den Ausfall zu erklären ? Welches sind die Gründe für diese Technik?

17 neural-networks deep-learning regularization dropout

4

Was bedeutet "Freiheitsgrad" in neuronalen Netzen?

In Bishops Buch "Pattern Classification and Machine Learning" beschreibt es eine Technik zur Regularisierung im Kontext neuronaler Netze. Ich verstehe jedoch keinen Absatz, der beschreibt, dass während des Trainings die Anzahl der Freiheitsgrade mit der Komplexität des Modells zunimmt. Das relevante Zitat ist das folgende: Eine Alternative zur Regularisierung zur …

17 machine-learning neural-networks regularization degrees-of-freedom

2

Frequentismus und Priors

Robby McKilliam sagt in einem Kommentar zu diesem Beitrag: Es sollte darauf hingewiesen werden, dass es aus Sicht der Frequentisten keinen Grund gibt, das Vorwissen nicht in das Modell zu integrieren. In diesem Sinne ist die frequentistische Ansicht einfacher, Sie haben nur ein Modell und einige Daten. Es ist nicht …

17 bayesian prior regularization frequentist

2

Warum Lasso oder ElasticNet besser abschneiden als Ridge, wenn die Merkmale miteinander korrelieren

Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung. AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf …

16 regression lasso regularization ridge-regression elastic-net

1

Warum unterscheidet sich das „entspannte Lasso“ vom Standard-Lasso?

Wenn wir mit einer Datenmenge , Lasso anwenden und eine Lösung β L erhalten , können wir Lasso erneut auf die Datenmenge ( X S , Y ) anwenden , wobei S die Menge ungleich Null ist Indizes von β L , um eine Lösung zu erhalten , β R …

16 regression optimization lasso regularization shrinkage

1

Was ist der typische Bereich möglicher Werte für den Schrumpfungsparameter bei einer bestraften Regression?

Bei der Lasso oder Ridge-Regression muss ein Schrumpfungsparameter angegeben werden, der häufig als oder . Dieser Wert wird häufig über eine Kreuzvalidierung ausgewählt, indem eine Reihe verschiedener Werte in den Trainingsdaten überprüft wird und ermittelt wird, welche die besten Werte ergeben, z. B. in den Testdaten. Welchen Wertebereich sollte man …

16 regression lasso regularization ridge-regression penalized

Als «regularization» getaggte Fragen