Als «ridge-regression» getaggte Fragen

Eine Regularisierungsmethode für Regressionsmodelle, die die Koeffizienten gegen Null verringert.

2
Ergebnisse der Ridge-Regression verstehen
Ich bin neu in der Gratregression. Als ich die lineare Gratregression anwendete, erhielt ich die folgenden Ergebnisse: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668 smallest value of …

1
Lambda-Bereich in elastischer Netzregression
\def\l{|\!|} Angesichts der elastischen Netzregression minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 Wie kann ein geeigneter Bereich von λλ\lambda für die Kreuzvalidierung ausgewählt werden? Im Fall α=1α=1\alpha=1 (Gratregression) die Formel dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} kann verwendet werden, um für jedes …

2
PRESS-Statistik für die Ridge-Regression
In gewöhnlichen kleinsten Quadraten, die einen Zielvektor gegen einen Satz von Prädiktoren zurückführen , wird die Hutmatrix als berechnetyyyX.X.X H.= X.( X.tX.)- 1X.tH.=X.(X.tX.)- -1X.tH = X (X^tX)^{-1} X^t und die PRESSE (vorhergesagte verbleibende Quadratsumme) wird berechnet durch S.S.P.= ∑ich( eich1 - hi i)2S.S.P.=∑ich(eich1- -hichich)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 wobei der …

1
Regularisierte Anpassung aus zusammengefassten Daten: Auswahl des Parameters
In Anlehnung an meine frühere Frage lautet die Lösung der normalen Gleichungen für die Gratregression wie folgt: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty Könnten Sie die Regularisierungsparameter jede Führung bieten für die Wahl . Da zusätzlich die Diagonale von mit der Anzahl der Beobachtungen wachsen , sollte auch eine Funktion sein ?λλ\lambdaXTXXTXX^TXmmmλλ\lambdammm

1
Warum Lasso für die Funktionsauswahl?
Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …

2
Ridge-Regression in R mit p-Werten und Anpassungsgüte
Gratregression in RI haben entdeckt linearRidgeim ridgePaket - das zu einem Modell passt, Koeffizienten und p-Werte angibt, aber nichts, um die allgemeine Anpassungsgüte zu messen lm.ridgeim MASSPaket - das Koeffizienten und GCV, aber keine p-Werte für Parameter meldet Wie kann ich all diese Dinge (Anpassungsgüte, Koeffizienten und p-Werte) aus derselben …

1
Bestraft die L2-Normalisierung der Gratregression das Abfangen? Wenn nicht, wie kann man seine Ableitung lösen?
Ich bin neu bei ML. Ich wurde informiert, dass die L2-Normalisierung der Gratregression den Achsenabschnitt nicht bestraft . Wie in der Kostenfunktion: Der L2-Normalisierungsterm summiert sich nur von bis , nicht von bis . Ich habe das auch gelesen:θ0θ0\theta_{0}∇θJ(θ)=12∑i=1m(hθ⃗ (x(i))−y(i))2+λ∑j=1nθ2j∇θJ(θ)=12∑i=1m(hθ→(x(i))−y(i))2+λ∑j=1nθj2 \nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}} λ∑nj=1θ2jλ∑j=1nθj2\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}j=1j=1j=1nnnj=0j=0j=0nnn In den meisten Fällen (in allen Fällen?) …



2
Kann jemand erklären, was das Foldid-Argument in glmnet bewirkt?
Ich versuche zu bestimmen, welches Alpha in meiner glmnetFunktion verwendet werden soll, aber die Hilfedatei sagt mir: Beachten Sie, dass cv.glmnet NICHT nach Werten für Alpha sucht. Es sollte ein bestimmter Wert angegeben werden, andernfalls wird standardmäßig Alpha = 1 angenommen. Wenn Benutzer auch Alpha kreuzvalidieren möchten , sollten sie …

3
Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
Gradient der multivariaten Gaußschen Log-Wahrscheinlichkeit
Ich versuche, die MAP-Schätzung für ein Modell durch Gradientenabstieg zu finden. Mein Prior ist ein multivariater Gaußscher mit einer bekannten Kovarianzmatrix. Auf konzeptioneller Ebene glaube ich zu wissen, wie man das macht, aber ich hatte auf Hilfe bei den Details gehofft. Insbesondere wenn es einen einfacheren Weg gibt, sich dem …

2
Verwirrt durch MATLABs Implementierung von Ridge
Ich habe zwei verschiedene Implementierungen von ridgein MATLAB. Eins ist einfach x =( A.'A + I λ )- 1EIN'bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b (wie auf der Grat-Regressionsseite von Wikipedia zu sehen ), wobei die Identitätsmatrix der Größenspalten ( ) Spalten ( ) ist undA × A.ichI\mathbf{I}EINA\mathbf{A}××\timesEINA\mathbf{A} Ich nenne Matlab einfach …


2
Wann wird die Ridge-Regression und die Lasso-Regression verwendet? Was kann erreicht werden, wenn diese Techniken anstelle des linearen Regressionsmodells verwendet werden?
Ich freue mich darauf, mehr über die regulierten Regressionstechniken wie Ridge- und Lasso-Regression zu erfahren. Ich würde gerne wissen, was mit diesen Techniken im Vergleich zum linearen Regressionsmodell erreicht werden kann. Auch in welcher Situation sollten wir diese Techniken anwenden. Und was unterscheidet diese beiden Techniken? Ich möchte das Konzept …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.