Bestraft die L2-Normalisierung der Gratregression das Abfangen? Wenn nicht, wie kann man seine Ableitung lösen?

Ich bin neu bei ML. Ich wurde informiert, dass die L2-Normalisierung der Gratregression den Achsenabschnitt nicht bestraft . Wie in der Kostenfunktion: Der L2-Normalisierungsterm summiert sich nur von bis , nicht von bis . Ich habe das auch gelesen: $\theta_{0}$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (h_{\vec{θ}} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

λ \sum_{j = 1}^{n} θ_{j}^{2}

$\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

j = 1

$j=1$

n

$n$

j = 0

$j=0$

n

$n$

In den meisten Fällen (in allen Fällen?) ist es besser, nicht zu regulieren , da es unwahrscheinlich ist, dass die Überanpassung verringert und der Raum für darstellbare Funktionen verkleinert wird $\theta_{0}$

Dies ergibt sich aus der letzten Antwort von user48956 von Warum ist ein lineares Regressionsmodell mit null Abschnitten besser vorhersagbar als ein Modell mit einem Abschnitt?

Ich bin verwirrt darüber, wie die Ableitung der Kostenfunktion zu lösen ist, da: wobei , und .

\nabla_{θ} J (θ) = \frac{1}{2} （ X θ - Y ）^{T} （ X θ - Y ） + λ (θ^{^{'}})^{T} θ^{^{'}},

$\nabla_{\theta}J(\theta)=\frac{1}{2}（X\theta-Y）^{T}（X\theta-Y）+\lambda(\theta^{'})^{T}\theta^{'},$

θ^{^{'}} = [\begin{matrix} θ_{1} \\ θ_{2} \\ . . . \\ θ_{n} \end{matrix}]

$\theta^{'}=\left[ \begin{matrix} \theta_{1} \\ \theta_{2} \\ ...\\ \theta_{n} \end{matrix} \right]$

θ = [\begin{matrix} θ_{0} \\ θ_{1} \\ . . . \\ θ_{n} \end{matrix}]

$\theta=\left[ \begin{matrix} \theta_{0} \\ \theta_{1} \\ ...\\ \theta_{n} \end{matrix} \right]$

X = [\begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & . . . & X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & . . . & X_{n}^{(2)} \\ . . . \\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & . . . & X_{n}^{(m)} \end{matrix}]

$X=\left[ \begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{matrix} \right]$

$\theta^{'}$ und sind unterschiedlich. Daher können sie aus meiner Sicht nicht gemischt werden. Und die Ableitung handelt von das . Nachdem ich gegoogelt und die Fragen in diesem Forum angesehen habe, kann ich immer noch keine Lösung finden: Kann mir jemand einen Hinweis geben? Vielen Dank im Voraus für Ihre Hilfe! $\theta$ $\theta$ $\theta^{'}$

θ = (X^{T} X + λ * I)^{- 1} X^{T} Y

$\theta=(X^TX+\lambda*I)^{-1}X^TY$

Ich denke jedoch, dass es zwei schnelle Lösungen für dieses Problem gibt:

Zunächst fügen wir nicht die Spalte all 1 zu . Nämlich . Das heißt, wir nehmen den Achsenabschnitt überhaupt nicht in das Modell auf: Ich glaube, diese Methode wurde in das klassische Buch Maschinelles Lernen in Aktion von Peter Harrington übernommen, das ich gerade lese. Bei der Implementierung der Ridge-Regression (P166 und P177, wenn Sie auch das Buch haben) enthält das gesamte an die Ridge-Regression übergebene nicht die Spalte all 1. $X$ $X=\left[ \begin{matrix} X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{matrix} \right]$

y = θ_{1} X_{1} + θ_{2} X_{2} + . . . + θ_{n} X_{n} .

$y=\theta_{1}X_{1}+\theta_{2}X_{2}+...+\theta_{n}X_{n}.$

X

$X$

Zweitens wird der Abschnitt auch in der Realität bestraft.

Die logistische Regression von scikit reguliert standardmäßig den Achsenabschnitt.

Dies kommt wiederum aus der letzten Antwort von user48956 von Warum ist ein lineares Regressionsmodell mit null Abschnitten besser vorhersagbar als ein Modell mit einem Abschnitt?

Beide Schnellkorrekturen führen zur Lösung

θ = (X^{T} X + λ * I)^{- 1} X^{T} Y .

$\theta=(X^TX+\lambda*I)^{-1}X^TY.$

Kann also die Ableitung der L2-Normalisierung der Gratregression tatsächlich gelöst werden oder wird sie nur durch schnelle Korrekturen gelöst?

machine-learning ridge-regression

— Naomi
quelle

Siehe auch stats.stackexchange.com/questions/86991 . Die Antwort auf Ihre Frage lautet, dass alles gelöst werden kann: Zerlegen Sie einfach den ersten Term in theta_0 und theta_prime. Sie können sofort nach optimalem Theta_0 suchen: Es ist der Gesamtmittelwert. Dies führt zu Ihrer "Schnellkorrektur Nr. 1" als die richtige Lösung für theta_prime für die vom Mittelwert subtrahierten Daten.

— Amöbe

Die zweite Lösung wird allgemein als falsch angesehen. Die Bestrafung des Abschnitts ist einer der wenigen Konstruktionsfehler bei sklearn.

— Matthew Drury

@MatthewDrury Ich glaube, ich habe einen Hack erwähnt, um dies zu "beheben", und dich traurig gemacht. Aber ich möchte OP sagen, dass der Hack einen riesigen Intercept macht, wie 1e9. Dann hat die Regularisierung wenig Einfluss darauf.

— Haitao Du

Yah, du erinnerst dich richtig, jedes Mal, wenn ich das tue, sterbe ich innerlich ein wenig.

— Matthew Drury

@amoeba Vielen Dank! Ich erarbeite die Lösung in meiner Antwort unter Ihrer Anleitung. Können Sie mir helfen, das zu überprüfen? Außerdem stelle ich fest, dass maschinelles Lernen in Aktion den Mittelwert von subtrahiert und nicht die Spalte "Alle 1" zu hinzufügt, die beide der richtige Weg sind. Bei der Feature-Standardisierung wird durch Varianz und nicht durch Standardabweichung geteilt! Ich habe dazu eine andere Frage gestellt: nicht durch Standardabweichung Können Sie mir bei dieser Frage noch einmal helfen? Vielen Dank!

Y

$Y$

X

$X$

X - μ

$X-\mu$

— Naomi

Die Elemente des statistischen Lernens von Hastie et al. weist in P63 darauf hin, dass:

Der Achsenabschnitt wurde aus dem Strafzeitraum herausgelassen $\theta_{0}$

Außerdem heißt es:

Die Gratlösungen sind unter Skalierung der Eingaben nicht äquivariant, so dass man normalerweise die Eingaben vor dem Lösen standardisiert (3.41) (3.41 ist die Kostenfunktion). Es kann gezeigt werden (Aufgabe 3.5), dass die Lösung zu (3.41) nach der Reparametrisierung unter Verwendung zentrierter Eingaben in zwei Teile geteilt werden kann: Jedes wird durch Wir schätzen durch Die verbleibenden Koeffizienten werden durch eine Gratregression ohne geschätzt Abfangen mit dem zentrierten . Von nun an wird angenommen, dass diese Zentrierung erfolgt ist, so daß die Eingangsmatrix hat $X_{j}^{(i)}$ $X_{j}^{(i)}-\overline{x_{j}}.$ $\theta_{0}$ $\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$ $X_{j}^{(i)}$ $X$ $n$ (statt ) Spalten. $n + 1$

Obwohl ich mich frage, warum die Elemente des statistischen Lernens zuerst eine Standardisierung von Merkmalen vorschlagen und dann nur eine Merkmalszentrierung durchgeführt wird. Vielleicht, um mit Übung 3.5 übereinzustimmen, in der nur Feature-Centering verwendet wird.

Wie auch immer, ich glaube, es ist richtig, die Z-Score-Standardisierung auf Features anzuwenden. Deshalb versuche ich nun, die Ableitung der Kostenfunktion der Gratregression auf Vorschlag des obigen Kommentators Amöbe zu lösen. Vielen Dank an ihn oder sie!

Zunächst die Kostenfunktion: wobei der Mittelwert des Attributs und die Standardabweichung von . Um es kürzer zu machen: Nun berechnen wir zuerst den Wert von

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (y_{i} - θ_{0} - \frac{X_{1}^{(i)} - \bar{X_{1}}}{σ_{1}} θ_{1} - \frac{X_{2}^{(i)} - \bar{X_{2}}}{σ_{2}} θ_{2} - . . . - \frac{X_{n}^{(i)} - \bar{X_{n}}}{σ_{n}} θ_{n})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2},

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\frac{X_{1}^{(i)}-\overline{X_1}}{\sigma_1}\theta_1-\frac{X_{2}^{(i)}-\overline{X_2}}{\sigma_2}\theta_2-...-\frac{X_{n}^{(i)}-\overline{X_n}}{\sigma_n}\theta_n)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}},$

\bar{X_{j}}

$\overline{X_j}$

X_{j}

$X_{j}$

σ_{j}

$\sigma_j$

X_{j}

$X_{j}$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (y_{i} - θ_{0} - \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

θ_{0}

$\theta_0$ im obigen Ausdruck durch Setzen der Ableitung in Bezug auf gleich Null. Da kein , erhalten wir: Das heißt: As (weil ist Mittelwert des Attributs ), also haben wir jetzt

θ_{0}

$\theta_0$

λ \sum_{j = 1}^{n} θ_{j}^{2}

$\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

θ_{0}

$\theta_{0}$

\nabla_{θ_{0}} J (θ) = - \sum_{i = 1}^{m} (y_{i} - θ_{0} - \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j}) = 0

$\nabla_{ \theta_0}J(\theta)=-\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)=0$

\sum_{i = 1}^{m} (y_{i} - θ_{0}) - \sum_{i = 1}^{m} \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j} = 0

$\sum_{i=1}^{m}(y_{i}-\theta_{0})-\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$

\sum_{i = 1}^{m} \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j} = 0

$\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$

\bar{X_{j}}

$\overline{X_j}$

X_{j}

$X_{j}$

\sum_{i = 1}^{m} (y_{i} - θ_{0}) = 0,

$\sum_{i=1}^{m}(y_{i}-\theta_{0})=0,$ offensichtlich:

θ_{0} = \bar{y} = \frac{1}{m} \sum_{i = 1}^{m} y^{(i)}

$\theta_0=\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$

Der Achsenabschnitt der merkmalsstandardisierten Gratregression ist also immer . Wenn wir also zuerst zentralisieren, indem wir seinen Mittelwert subtrahieren (get für Datenbeispiel ), schließen Sie nicht alle 1 Spalten in und führen Sie dann eine Feature-Standardisierung für (get für des Datenbeispiels ) die Kostenfunktion einfach Das heißt $\overline{y}$ $Y$ $(y_i)^{'}$ $i$ $X$ $X$ $(X_j^{(i)})^{'}$ $X_{j}$ $i$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} ((y_{i})^{^{'}} - \sum_{j = 1}^{n} (X_{j}^{(i)})^{^{'}} θ_{j})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}((y_{i})^{'}-\sum_{j=1}^{n}(X_j^{(i)})^{'}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

\nabla_{θ} J (θ) = \frac{1}{2} （ X^{^{'}} θ - Y^{^{'}} ）^{T} （ X^{^{'}} θ - Y^{^{'}} ） + λ (θ)^{T} θ,

$\nabla_{\theta}J(\theta)=\frac{1}{2}（X^{'}\theta-Y^{'}）^{T}（X^{'}\theta-Y^{'}）+\lambda(\theta)^{T}\theta,$ wobei , hat nicht alle 1 Spalten und standardisiert von , ist in Bezug auf zentriert . Jetzt kann (ohne ) gelöst werden mit: Für standardisierte Features lautet das lineare Modell wobei

θ = [\begin{matrix} θ_{1} \\ θ_{2} \\ . . . \\ θ_{n} \end{matrix}]

$\theta=\left[ \begin{matrix} \theta_1 \\ \theta_2 \\ ...\\ \theta_n \end{matrix} \right]$

X^{^{'}}

$X^{'}$

X

$X$

Y^{^{'}}

$Y^{'}$

Y

$Y$

θ

$\theta$

θ_{0}

$\theta_0$

θ = ((X^{^{'}})^{T} X^{^{'}} + λ * I)^{- 1} (X^{^{'}})^{T} Y^{^{'}}

$\theta=((X^{'})^TX^{'}+\lambda*I)^{-1}(X^{'})^TY^{'}$

y = \bar{y} + θ_{1} X_{1}^{^{'}} + θ_{2} X_{2}^{^{'}} + . . . + θ_{n} X_{n}^{^{'}} - - - (1),

$y=\overline{y}+\theta{_1}X_1^{'}+\theta{_2}X_2^{'}+...+\theta{_n}X_n^{'}---(1),$

X_{i}^{^{'}} = \frac{X_{i} - \bar{X_{i}}}{σ_{i}} - - - (2)

$X_i^{'}=\frac{X_{i}-\overline{X_i}}{\sigma_i}---(2)$ Wenn wir (2) in (1) verwenden, wie in der Antwort von Plasty Grove vorgeschlagen . Für Ursprungseingabedaten lautet das lineare Modell also Das ist Deshalb werden nach der Lösung von Koeffizienten standardisierter Merkmale Koeffizienten von Ursprungskoeffizienten zurückgegeben (nicht standardisiert) Features) müssen wir

y = \bar{y} + \frac{X_{1} - \bar{X_{1}}}{σ_{1}} θ_{1} + \frac{X_{2} - \bar{X_{2}}}{σ_{2}} θ_{2} + . . . + \frac{X_{n} - \bar{X_{n}}}{σ_{n}} θ_{n}

$y=\overline{y}+\frac{X_{1}-\overline{X_1}}{\sigma_1}\theta_1+\frac{X_{2}-\overline{X_2}}{\sigma_2}\theta_2+...+\frac{X_{n}-\overline{X_n}}{\sigma_n}\theta_n$

y = \frac{θ_{1}}{σ_{1}} X_{1} + \frac{θ_{2}}{σ_{2}} X_{2} + . . . + \frac{θ_{n}}{σ_{n}} X_{n} + \bar{y} - \frac{\bar{X_{1}}}{σ_{1}} θ_{1} - \frac{\bar{X_{2}}}{σ_{2}} θ_{2} - . . . - \frac{\bar{X_{n}}}{σ_{n}} θ_{n}

$y=\frac{\theta_1}{\sigma_1}X_1+\frac{\theta_2}{\sigma_2}X_2+...+\frac{\theta_n}{\sigma_n}X_n+\overline{y}-\frac{\overline{X_1}}{\sigma_1}\theta_1-\frac{\overline{X_2}}{\sigma_2}\theta_2-...-\frac{\overline{X_n}}{\sigma_n}\theta_n$

θ_{i} / σ_{i}

$\theta_i/\sigma_i$

— Naomi
quelle

Schönes detailliertes Beispiel. Ein paar Kommentare: Sie kommentieren den Effekt der Zentrierung von , aber um einen Intercept-Term wegzulassen und korrekte Schätzungen zu erhalten, müssen Sie auch alle Features zentrieren . Ich stimme jedoch zu, dass dieses Beispiel mit der Begründung übereinstimmt, den Intercept-Term nicht zu bestrafen (um eine konsistente Schlussfolgerung zu erhalten). Zweitens sollte die Intuition hier für etwas dienen. Wir alle akzeptieren, dass die Vorhersage von anhand seines Mittelwerts einem 0-Parameter-Modell ähnelt. Um also den additiven Effekt von im Modell zu erhalten, dürfen wir den Begriff nicht bestrafen, der lediglich den Mittelwert-Y-Effekt in Gegenwart von .

Y

$Y$

X

$X$

Y

$Y$

X

$X$

X

$X$

— AdamO