Ich bin neu in der Gratregression. Als ich die lineare Gratregression anwendete, erhielt ich die folgenden Ergebnisse: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668 smallest value of …
\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …
In gewöhnlichen kleinsten Quadraten, die einen Zielvektor gegen einen Satz von Prädiktoren zurückführen , wird die Hutmatrix als berechnetyyyX.X.X H.= X.( X.tX.)- 1X.tH.=X.(X.tX.)- -1X.tH = X (X^tX)^{-1} X^t und die PRESSE (vorhergesagte verbleibende Quadratsumme) wird berechnet durch S.S.P.= ∑ich( eich1 - hi i)2S.S.P.=∑ich(eich1- -hichich)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 wobei der …
In Anlehnung an meine frühere Frage lautet die Lösung der normalen Gleichungen für die Gratregression wie folgt: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty Könnten Sie die Regularisierungsparameter jede Führung bieten für die Wahl . Da zusätzlich die Diagonale von mit der Anzahl der Beobachtungen wachsen , sollte auch eine Funktion sein ?λλ\lambdaXTXXTXX^TXmmmλλ\lambdammm
Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …
Gratregression in RI haben entdeckt linearRidgeim ridgePaket - das zu einem Modell passt, Koeffizienten und p-Werte angibt, aber nichts, um die allgemeine Anpassungsgüte zu messen lm.ridgeim MASSPaket - das Koeffizienten und GCV, aber keine p-Werte für Parameter meldet Wie kann ich all diese Dinge (Anpassungsgüte, Koeffizienten und p-Werte) aus derselben …
Ich bin neu bei ML. Ich wurde informiert, dass die L2-Normalisierung der Gratregression den Achsenabschnitt nicht bestraft . Wie in der Kostenfunktion: Der L2-Normalisierungsterm summiert sich nur von bis , nicht von bis . Ich habe das auch gelesen:θ0θ0\theta_{0}∇θJ(θ)=12∑i=1m(hθ⃗ (x(i))−y(i))2+λ∑j=1nθ2j∇θJ(θ)=12∑i=1m(hθ→(x(i))−y(i))2+λ∑j=1nθj2 \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} λ∑nj=1θ2jλ∑j=1nθj2\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}j=1j=1j=1nnnj=0j=0j=0nnn In den meisten Fällen (in allen Fällen?) …
Kann jemand eine intuitive Vorstellung davon geben, warum es besser ist, eine kleinere Beta zu haben? Für LASSO kann ich verstehen, dass es hier eine Feature-Auswahlkomponente gibt. Weniger Funktionen machen das Modell einfacher und daher weniger wahrscheinlich, dass es überpasst. Für den Grat bleiben jedoch alle Merkmale (Faktoren) erhalten. Nur …
ich wundere mich über die optimale Gitterfeinheit und Wie ist das Verhältnis zwischen Gitterfeinheit und Überanpassung? bei Regularisierungsmethoden wie LASSO, Ridge Regression oder Elastic Net. Angenommen, ich möchte ein Regressionsmodell mit LASSO an eine Stichprobe von 500 Beobachtungen anpassen (ich habe keine Daten; dies ist nur ein Beispiel). Es sei …
Ich versuche zu bestimmen, welches Alpha in meiner glmnetFunktion verwendet werden soll, aber die Hilfedatei sagt mir: Beachten Sie, dass cv.glmnet NICHT nach Werten für Alpha sucht. Es sollte ein bestimmter Wert angegeben werden, andernfalls wird standardmäßig Alpha = 1 angenommen. Wenn Benutzer auch Alpha kreuzvalidieren möchten , sollten sie …
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
Ich versuche, die MAP-Schätzung für ein Modell durch Gradientenabstieg zu finden. Mein Prior ist ein multivariater Gaußscher mit einer bekannten Kovarianzmatrix. Auf konzeptioneller Ebene glaube ich zu wissen, wie man das macht, aber ich hatte auf Hilfe bei den Details gehofft. Insbesondere wenn es einen einfacheren Weg gibt, sich dem …
Ich habe zwei verschiedene Implementierungen von ridgein MATLAB. Eins ist einfach x =( A.'A + I λ )- 1EIN'bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b (wie auf der Grat-Regressionsseite von Wikipedia zu sehen ), wobei die Identitätsmatrix der Größenspalten ( ) Spalten ( ) ist undA × A.ichI\mathbf{I}EINA\mathbf{A}××\timesEINA\mathbf{A} Ich nenne Matlab einfach …
Ich freue mich darauf, mehr über die regulierten Regressionstechniken wie Ridge- und Lasso-Regression zu erfahren. Ich würde gerne wissen, was mit diesen Techniken im Vergleich zum linearen Regressionsmodell erreicht werden kann. Auch in welcher Situation sollten wir diese Techniken anwenden. Und was unterscheidet diese beiden Techniken? Ich möchte das Konzept …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.