Ich habe gehört, dass die Gratregression als Mittelwert einer posterioren Verteilung abgeleitet werden kann, wenn der Prior angemessen gewählt wird. Ist die Intuition, dass die Einschränkungen, die für die Regressionskoeffizienten durch den Prior festgelegt wurden (z. B. Standardnormalverteilungen um 0), identisch sind / ersetzen die Strafe, die für die quadratische …
In "The Elements of Statistical Learning" (2. Aufl.), S. 63, geben die Autoren die folgenden zwei Formulierungen des Gratregressionsproblems an: β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} und β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβ2j≤t.β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβj2≤t. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to …
Ich habe die beliebtesten Bücher zum statistischen Lernen gelesen 1- Die Elemente des statistischen Lernens. 2- Eine Einführung in das statistische Lernen . Beide erwähnen, dass die Gratregression zwei äquivalente Formeln hat. Gibt es einen nachvollziehbaren mathematischen Beweis für dieses Ergebnis? Ich habe auch Cross Validated durchlaufen , kann dort …
Wie interpretieren Sie beim Ausführen der Ridge-Regression Koeffizienten, die größer sind als die entsprechenden Koeffizienten unter den kleinsten Quadraten (für bestimmte Werte von )? Soll die Gratregression nicht die Koeffizienten monoton verkleinern?λλ\lambda Wie interpretiert man in einem verwandten Zusammenhang einen Koeffizienten, dessen Vorzeichen sich während der Gratregression ändert (dh die …
Bei der Gratregression ist die zu minimierende Zielfunktion: RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade Differenzierung?
Mein allgemeines Verständnis ist, dass sich AIC mit dem Kompromiss zwischen der Anpassungsgüte des Modells und der Komplexität des Modells befasst. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = Anzahl der Parameter im Modell LLL = Wahrscheinlichkeit Das Bayes'sche Informationskriterium BIC ist eng mit dem AIC verwandt. Der AIC benachteiligt die Anzahl der …
Ich möchte den AICc eines Gratregressionsmodells berechnen. Das Problem ist die Anzahl der Parameter. Für die lineare Regression schlagen die meisten Menschen vor, dass die Anzahl der Parameter der Anzahl der geschätzten Koeffizienten plus Sigma (der Varianz des Fehlers) entspricht. Wenn es um die Gratregression geht, lese ich, dass die …
Ich lerne etwas über die Gratregression und weiß, dass die Gratregression bei Multikollinearität tendenziell besser funktioniert. Ich frage mich, warum das so ist? Entweder eine intuitive oder eine mathematische Antwort wäre zufriedenstellend (beide Arten von Antworten wären sogar noch zufriedenstellender). Außerdem weiß ich , dass das β immer erhalten werden, …
Ich habe gelesen, dass eine Ridge-Regression durch einfaches Hinzufügen von Datenzeilen zur ursprünglichen Datenmatrix erzielt werden kann, wobei jede Zeile unter Verwendung von 0 für die abhängigen Variablen und der Quadratwurzel von kkk oder Null für die unabhängigen Variablen erstellt wird. Für jede unabhängige Variable wird dann eine zusätzliche Zeile …
Ich suche Literatur über negative Gratregression . Kurz gesagt, es ist eine Verallgemeinerung der linearen Regression unter Verwendung ridge negative λλ\lambda in der Schätzer β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Der positive Fall hat eine schöne Theorie: als Verlustfunktion, als Einschränkung, als Bayes-Prior ... aber ich fühle …
Dieser Beitrag folgt diesem: Warum wird die Kammschätzung besser als die OLS, indem der Diagonale eine Konstante hinzugefügt wird? Hier ist meine Frage: Soweit ich weiß, verwendet die eine ℓ 2 -Norm (euklidischer Abstand). Aber warum verwenden wir das Quadrat dieser Norm? (Eine direkte Anwendung von ℓ 2 würde mit …
Gemäß den Referenzen Buch 1 , Buch 2 und Papier . Es wurde erwähnt, dass es eine Äquivalenz zwischen der regulierten Regression (Ridge, LASSO und Elastic Net) und ihren Einschränkungsformeln gibt. Ich habe mir auch Cross Validated 1 und Cross Validated 2 angesehen , aber ich kann keine klare Antwort …
Ich führe sowohl mit Lasso als auch mit Ridge ein Regressionsmodell durch (um eine diskrete Ergebnisvariable im Bereich von 0 bis 5 vorherzusagen). Bevor ich das Modell ausführe, verwende ich die SelectKBestMethode scikit-learn, um den Funktionsumfang von 250 auf 25 zu reduzieren . Ohne eine anfängliche Merkmalsauswahl ergeben sowohl Lasso …
Angenommen , ich habe zwei Schätzern ß 1 und β 2 , die konsistente Schätzer des gleichen Parameters β 0 und so , dass √βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) mitV1≤V2V1≤V2V_1 \leq V_2in dem psd Sinne. Somit asymptotisch β 1ist effizienter als β 2. Diese …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.