Angenommen, ich möchte eine große Anzahl von Parametern schätzen und einige davon benachteiligen, weil ich der Meinung bin, dass sie im Vergleich zu den anderen nur geringe Auswirkungen haben sollten. Wie entscheide ich mich für ein Strafschema? Wann ist eine Kammregression angemessener? Wann sollte ich Lasso verwenden?
Ich lese die Bücher über lineare Regression. Es gibt einige Sätze zur L1- und L2-Norm. Ich kenne sie, verstehe nur nicht, warum L1-Norm für spärliche Modelle. Kann jemand eine einfache Erklärung geben?
Unter welchen Umständen sollte man die Verwendung von Regularisierungsmethoden (Ridge, Lasso oder Least Angles Regression) anstelle von OLS in Betracht ziehen? Falls dies hilft, die Diskussion zu steuern, ist mein Hauptinteresse die Verbesserung der Vorhersagegenauigkeit.
Firstregressionskoeffizientenschätzung β R sind die Werte , die die Minimierungβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Meine Fragen sind: Wenn , dann sehen wir, dass sich der obige Ausdruck auf das übliche RSS reduziert. Was ist, wenn λ → ∞ ? Ich verstehe das Lehrbuch Erklärung des Verhaltens der Koeffizienten nicht.λ=0λ=0\lambda …
Betrachten Sie die folgenden drei Phänomene. Steins Paradoxon: Angesichts einiger Daten aus der multivariaten Normalverteilung in ist der Stichprobenmittelwert kein sehr guter Schätzer für den wahren Mittelwert. Man kann eine Schätzung mit kleinerem mittleren Fehlerquadrat erhalten, wenn man alle Koordinaten des Stichprobenmittelwerts gegen Null schrumpft [oder gegen ihren Mittelwert oder …
Die Weihnachtszeit hat mir die Möglichkeit gegeben, mich mit den Elementen des statistischen Lernens am Feuer zu entspannen . Aus ökonometrischer Sicht (häufig) habe ich Probleme, die Verwendung von Schrumpfungsmethoden wie Ridge Regression, Lasso und Least Angle Regression (LAR) zu verstehen. Normalerweise interessiert mich die Parameterschätzung selbst und das Erreichen …
Ich verstehe, dass die Grat-Regressionsschätzung das , das die Restsumme des Quadrats und eine Strafe für die Größe von β minimiertββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Allerdings verstehe ich die Bedeutung der Tatsache, dass sich von dadurch unterscheidet, dass nur eine kleine Konstante …
Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen tatsächlich sehr groß war, warum führt ein Verkleinern des Parameters …
Betrachten Sie ein gutes altes Regressionsproblem mit Prädiktoren und Stichprobengröße . Die übliche Weisheit ist, dass der OLS-Schätzer zu hoch ist und im Allgemeinen von dem Kamm-Regressions-Schätzer übertroffen wird:Es ist Standard, eine Kreuzvalidierung zu verwenden, um einen optimalen Regularisierungsparameter . Hier verwende ich einen 10-fachen Lebenslauf. Klarstellungsaktualisierung: Wenn , verstehe …
Ich habe einige Probleme mit der Herleitung der Lösung für die Gratregression. Ich kenne die Regressionslösung ohne den Regularisierungsbegriff: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.
Wenn Sie eine Kreuzvalidierung für die Modellauswahl (wie z. B. die Optimierung von Hyperparametern) verwenden und die Leistung des besten Modells bewerten, sollten Sie eine verschachtelte Kreuzvalidierung verwenden . Die äußere Schleife dient zur Bewertung der Leistung des Modells, und die innere Schleife dient zur Auswahl des besten Modells. Das …
Ich möchte Lasso oder Ridge-Regression für ein Modell mit mehr als 50.000 Variablen verwenden. Ich möchte dies mithilfe des Softwarepakets in R tun. Wie kann ich den Schrumpfungsparameter ( ) schätzen ?λλ\lambda Bearbeitungen: Hier ist der Punkt, zu dem ich gekommen bin: set.seed (123) Y <- runif (1000) Xv <- …
Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen". Ich verstehe, warum Lasso wünschenswert sein …
Wird die elastische Netz-Regularisierung immer Lasso & Ridge vorgezogen, da sie die Nachteile dieser Methoden zu beseitigen scheint? Was ist die Intuition und was ist die Mathematik hinter dem elastischen Netz?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.