Die Mathematik von AdaGrad und AdaDelta verstehen

Ich habe einige Modelle für ein Projekt erstellt, aber ich kann mich nicht mit der Mathematik der Adagrad- und Adadelta-Algorithmen befassen.

Ich verstehe, wie Vanille-Gradienten-Abstieg funktioniert, und ich habe Code geschrieben, damit er erfolgreich funktioniert.

Ich wäre dankbar, wenn mir jemand diese beiden Dinge erklären oder eine Ressource bereitstellen würde, um sie zu verstehen.

machine-learning gradient-descent

— Malaiische Hazarika
quelle

Gute Erklärung in quora.com/…

— mico

In Bezug auf Ressourcen:

Meiner Meinung nach erklärt ADADELTA: Eine adaptive Lernratenmethode (das Original-ADADELTA-Papier) (in den Abschnitten 1-3) sowohl ADAGRAD als auch ADADELTA auf leicht zugängliche Weise.
Ich fand, dass adaptive Subgradientenmethoden für Online-Lernen und stochastische Optimierung weniger zugänglich sind, aber es ist das Original-ADAGRAD-Papier, daher ist es wahrscheinlich einen Versuch wert.
Ein Überblick über Algorithmen zur Optimierung des Gradientenabfalls (ein Blogbeitrag von Sebastian Ruder) hat mir auch geholfen, sowohl ADAGRAD als auch ADADELTA zu verstehen.

Hier sind einige zentrale Zitate aus ADADELTA: Eine adaptive Lernratenmethode , zusammen mit einigen Beispielen und kurzen Erklärungen:

ADAGRAD

Die Aktualisierungsregel für ADAGRAD lautet wie folgt: Hier berechnet der Nenner die-Norm aller vorherigen Gradienten pro Dimension und η ist eine globale Lernrate, die von allen Dimensionen geteilt wird. Während es die handabgestimmte globale Lernrate gibt, hat jede Dimension ihre eigene dynamische Rate.
$\begin{matrix} Δ x_{t} = - \frac{η}{\sqrt{\sum_{τ = 1}^{t} g_{τ}^{2}}} g_{t} & (5) \end{matrix}$ $\begin{matrix}\Delta x_{t}=-\frac{\eta}{\sqrt{\sum_{\tau=1}^{t}g_{\tau}^{2}}}g_{t} & & & (5)\end{matrix}$ $l2$

Dh wenn die Gradienten in den ersten drei Schritten , dann: $g_{1}=\left(\begin{gathered}a_{1}\\ b_{1}\\ c_{1} \end{gathered} \right)\,,\,g_{2}=\left(\begin{gathered}a_{2}\\ b_{2}\\ c_{2} \end{gathered} \right)\,,\,g_{3}=\left(\begin{gathered}a_{3}\\ b_{3}\\ c_{3} \end{gathered} \right)$ Hier ist leichter zu erkennen, dass jede Dimension wie versprochen ihre eigene dynamische Lernrate hat.

\begin{matrix} Δ x_{3} = - \frac{η}{\sqrt{\sum_{τ = 1}^{3} g_{τ}^{2}}} g_{3} = - \frac{η}{\sqrt{(\begin{matrix} a_{1}^{2} + a_{2}^{2} + a_{3}^{2} \\ b_{1}^{2} + b_{2}^{2} + b_{3}^{2} \\ c_{1}^{2} + c_{2}^{2} + c_{3}^{2} \end{matrix})}} (\begin{matrix} a_{3} \\ b_{3} \\ c_{3} \end{matrix}) \\ ↓ \\ Δ x_{3} = - (\begin{matrix} \frac{η}{\sqrt{a_{1}^{2} + a_{2}^{2} + a_{3}^{2}}} a_{3} \\ \frac{η}{\sqrt{b_{1}^{2} + b_{2}^{2} + b_{3}^{2}}} b_{3} \\ \frac{η}{\sqrt{c_{1}^{2} + c_{2}^{2} + c_{3}^{2}}} c_{3} \end{matrix}) \end{matrix}

$\begin{gathered}\Delta x_{3}=-\frac{\eta}{\sqrt{\sum_{\tau=1}^{3}g_{\tau}^{2}}}g_{3}=-\frac{\eta}{\sqrt{\left(\begin{gathered}a_{1}^{2}+a_{2}^{2}+a_{3}^{2}\\ b_{1}^{2}+b_{2}^{2}+b_{3}^{2}\\ c_{1}^{2}+c_{2}^{2}+c_{3}^{2} \end{gathered} \right)}}\left(\begin{gathered}a_{3}\\ b_{3}\\ c_{3} \end{gathered} \right)\\ \downarrow\\ \Delta x_{3}=-\left(\begin{gathered}\frac{\eta}{\sqrt{a_{1}^{2}+a_{2}^{2}+a_{3}^{2}}}a_{3}\\ \frac{\eta}{\sqrt{b_{1}^{2}+b_{2}^{2}+b_{3}^{2}}}b_{3}\\ \frac{\eta}{\sqrt{c_{1}^{2}+c_{2}^{2}+c_{3}^{2}}}c_{3} \end{gathered} \right) \end{gathered}$

Probleme von ADAGRAD, denen ADADELTA entgegenzuwirken versucht

Die in diesem Artikel vorgestellte Idee wurde von ADAGRAD abgeleitet, um die beiden Hauptnachteile der Methode zu verbessern: 1) den kontinuierlichen Rückgang der Lernraten während des Trainings und 2) die Notwendigkeit einer manuell ausgewählten globalen Lernrate.

Der zweite Nachteil ist ziemlich selbsterklärend.

$g_2$
$t>2$ $\sqrt{\sum_{\tau=1}^{t}g_{\tau}^{2}}$ $g_2$ $g_2$ $g_t$ $\Delta x_t$
$\Delta x_t$

ADADELTA

$w$

$w$ $t$ $E\left[g^{2}\right]_{t}$
$\begin{matrix} E {[g^{2}]}_{t} = ρ E {[g^{2}]}_{t - 1} + (1 - ρ) g_{t}^{2} & (8) \end{matrix}$ $\begin{matrix}E\left[g^{2}\right]_{t}=\rho E\left[g^{2}\right]_{t-1}+\left(1-\rho\right)g_{t}^{2} & & & (8)\end{matrix}$ $\rho$ $\text{RMS}$ $t$ $\begin{matrix} RMS {[g]}_{t} = \sqrt{E {[g^{2}]}_{t} + ϵ} & (9) \end{matrix}$ $\begin{matrix}\text{RMS}\left[g\right]_{t}=\sqrt{E\left[g^{2}\right]_{t}+\epsilon} & & & (9)\end{matrix}$ $\epsilon$

$\text{RMS}$

E {[Δ x^{2}]}_{t - 1} = ρ E {[Δ x^{2}]}_{t - 2} + (1 - ρ) Δ x_{t - 1}^{2}

$E\left[\Delta x^{2}\right]_{t-1}=\rho E\left[\Delta x^{2}\right]_{t-2}+\left(1-\rho\right)\Delta x_{t-1}^{2}$

RMS {[Δ x]}_{t - 1} = \sqrt{E {[Δ x^{2}]}_{t - 1} + ϵ}

$\text{RMS}\left[\Delta x\right]_{t-1}=\sqrt{E\left[\Delta x^{2}\right]_{t-1}+\epsilon}$

$\Delta x_{t}$ $\text{RMS}$ $w$ $\Delta x$
$\begin{matrix} Δ x_{t} = - \frac{RMS {[Δ x]}_{t - 1}}{RMS {[g]}_{t}} g_{t} & (14) \end{matrix}$ $\begin{matrix}\Delta x_{t}=-\frac{\text{RMS}\left[\Delta x\right]_{t-1}}{\text{RMS}\left[g\right]_{t}}g_{t} & & & (14)\end{matrix}$ $\epsilon$ $\text{RMS}$ $\Delta x_{0}=0$

$r$ $g_{r}=\left(\begin{gathered}a_{r}\\ b_{r}\\ c_{r} \end{gathered} \right)$ $\Delta x_{r}=\left(\begin{gathered}i_{r}\\ j_{r}\\ k_{r} \end{gathered} \right)$

\begin{matrix} Δ x_{t} = - \frac{RMS {[Δ x]}_{t - 1}}{RMS {[g]}_{t}} g_{t} = - \frac{\sqrt{E {[Δ x^{2}]}_{t - 1} + ϵ}}{\sqrt{E {[g^{2}]}_{t} + ϵ}} g_{t} = \\ - \frac{\sqrt{ρ E {[Δ x^{2}]}_{t - 2} + (1 - ρ) Δ x_{t - 1}^{2} + ϵ}}{\sqrt{ρ E {[g^{2}]}_{t - 1} + (1 - ρ) g_{t}^{2} + ϵ}} g_{t} = \\ - \frac{\sqrt{ρ (ρ E {[Δ x^{2}]}_{t - 3} + (1 - ρ) Δ x_{t - 2}^{2}) + (1 - ρ) Δ x_{t - 1}^{2} + ϵ}}{\sqrt{ρ (ρ E {[g^{2}]}_{t - 2} + (1 - ρ) g_{t - 1}^{2}) + (1 - ρ) g_{t}^{2} + ϵ}} g_{t} = \\ - \frac{\sqrt{ρ^{2} E {[Δ x^{2}]}_{t - 3} + p^{1} (1 - ρ) Δ x_{t - 2}^{2} + p^{0} (1 - ρ) Δ x_{t - 1}^{2} + ϵ}}{\sqrt{ρ^{2} E {[g^{2}]}_{t - 2} + p^{1} (1 - ρ) g_{t - 1}^{2} + p^{0} (1 - ρ) g_{t}^{2} + ϵ}} g_{t} = \\ - \frac{\sqrt{ρ^{t - 1} E {[Δ x^{2}]}_{0} + \overset{t - 1}{\sum_{r = 1}} ρ^{t - 1 - r} (1 - ρ) Δ x_{r}^{2} + ϵ}}{\sqrt{ρ^{t - 1} E {[g^{2}]}_{1} + \overset{t}{\sum_{r = 2}} ρ^{t - r} (1 - ρ) g_{r}^{2} + ϵ}} g_{t} \end{matrix}

$\begin{gathered}\Delta x_{t}=-\frac{\text{RMS}\left[\Delta x\right]_{t-1}}{\text{RMS}\left[g\right]_{t}}g_{t}=-\frac{\sqrt{E\left[\Delta x^{2}\right]_{t-1}+\epsilon}}{\sqrt{E\left[g^{2}\right]_{t}+\epsilon}}g_{t}=\\ \\ -\frac{\sqrt{\rho E\left[\Delta x^{2}\right]_{t-2}+\left(1-\rho\right)\Delta x_{t-1}^{2}+\epsilon}}{\sqrt{\rho E\left[g^{2}\right]_{t-1}+\left(1-\rho\right)g_{t}^{2}+\epsilon}}g_{t}=\\ \\ -\frac{\sqrt{\rho\left(\rho E\left[\Delta x^{2}\right]_{t-3}+\left(1-\rho\right)\Delta x_{t-2}^{2}\right)+\left(1-\rho\right)\Delta x_{t-1}^{2}+\epsilon}}{\sqrt{\rho\left(\rho E\left[g^{2}\right]_{t-2}+\left(1-\rho\right)g_{t-1}^{2}\right)+\left(1-\rho\right)g_{t}^{2}+\epsilon}}g_{t}=\\ \\ -\frac{\sqrt{\rho^{2}E\left[\Delta x^{2}\right]_{t-3}+p^{1}\left(1-\rho\right)\Delta x_{t-2}^{2}+p^{0}\left(1-\rho\right)\Delta x_{t-1}^{2}+\epsilon}}{\sqrt{\rho^{2}E\left[g^{2}\right]_{t-2}+p^{1}\left(1-\rho\right)g_{t-1}^{2}+p^{0}\left(1-\rho\right)g_{t}^{2}+\epsilon}}g_{t}=\\ \\ -\frac{\sqrt{\rho^{t-1}E\left[\Delta x^{2}\right]_{0}+\overset{t-1}{\underset{r=1}{\sum}}\rho^{t-1-r}\left(1-\rho\right)\Delta x_{r}^{2}+\epsilon}}{\sqrt{\rho^{t-1}E\left[g^{2}\right]_{1}+\overset{t}{\underset{r=2}{\sum}}\rho^{t-r}\left(1-\rho\right)g_{r}^{2}+\epsilon}}g_{t} \end{gathered}$

$\rho$ is a decay constant, so we choose it such that $\rho\in\left(0,1\right)$ (typically $\rho\ge0.9$ ).
Therefore, multiplying by a high power of $\rho$ results in a very small number.
Let $w$ be the lowest exponent such that we deem the product of multiplying sane values by $\rho^w$ negligible.
Now, we can approximate $\Delta x_{t}$ by dropping negligible terms:

\begin{matrix} Δ x_{t} \approx - \frac{\sqrt{\overset{t - 1}{\sum_{r = t - w}} ρ^{t - 1 - r} (1 - ρ) Δ x_{r}^{2} + ϵ}}{\sqrt{\overset{t}{\sum_{r = t + 1 - w}} ρ^{t - r} (1 - ρ) g_{r}^{2} + ϵ}} g_{t} = \\ - \frac{\sqrt{\overset{t - 1}{\sum_{r = t - w}} ρ^{t - 1 - r} (1 - ρ) (\begin{matrix} i_{r}^{2} \\ j_{r}^{2} \\ k_{r}^{2} \end{matrix}) + ϵ}}{\sqrt{\overset{t}{\sum_{r = t + 1 - w}} ρ^{t - r} (1 - ρ) (\begin{matrix} a_{r}^{2} \\ b_{r}^{2} \\ c_{r}^{2} \end{matrix}) + ϵ}} (\begin{matrix} a_{t} \\ b_{t} \\ c_{t} \end{matrix}) \\ ↓ \\ Δ x_{t} \approx - (\begin{matrix} \frac{\sqrt{\overset{t - 1}{\sum_{r = t - w}} ρ^{t - 1 - r} (1 - ρ) i_{r}^{2} + ϵ}}{\sqrt{\overset{t}{\sum_{r = t + 1 - w}} ρ^{t - r} (1 - ρ) a_{r}^{2} + ϵ}} a_{t} \\ \frac{\sqrt{\overset{t - 1}{\sum_{r = t - w}} ρ^{t - 1 - r} (1 - ρ) j_{r}^{2} + ϵ}}{\sqrt{\overset{t}{\sum_{r = t + 1 - w}} ρ^{t - r} (1 - ρ) b_{r}^{2} + ϵ}} b_{t} \\ \frac{\sqrt{\overset{t - 1}{\sum_{r = t - w}} ρ^{t - 1 - r} (1 - ρ) k_{r}^{2} + ϵ}}{\sqrt{\overset{t}{\sum_{r = t + 1 - w}} ρ^{t - r} (1 - ρ) c_{r}^{2} + ϵ}} c_{t} \end{matrix}) \end{matrix}

$\begin{gathered}\Delta x_{t}\approx-\frac{\sqrt{\overset{t-1}{\underset{r=t-w}{\sum}}\rho^{t-1-r}\left(1-\rho\right)\Delta x_{r}^{2}+\epsilon}}{\sqrt{\overset{t}{\underset{r=t+1-w}{\sum}}\rho^{t-r}\left(1-\rho\right)g_{r}^{2}+\epsilon}}g_{t}=\\ \\ -\frac{\sqrt{\overset{t-1}{\underset{r=t-w}{\sum}}\rho^{t-1-r}\left(1-\rho\right)\left(\begin{gathered}i_{r}^{2}\\ j_{r}^{2}\\ k_{r}^{2} \end{gathered} \right)+\epsilon}}{\sqrt{\overset{t}{\underset{r=t+1-w}{\sum}}\rho^{t-r}\left(1-\rho\right)\left(\begin{gathered}a_{r}^{2}\\ b_{r}^{2}\\ c_{r}^{2} \end{gathered} \right)+\epsilon}}\left(\begin{gathered}a_{t}\\ b_{t}\\ c_{t} \end{gathered} \right)\\ \downarrow\\ \Delta x_{t}\approx-\left(\begin{gathered}\frac{\sqrt{\overset{t-1}{\underset{r=t-w}{\sum}}\rho^{t-1-r}\left(1-\rho\right)i_{r}^{2}+\epsilon}}{\sqrt{\overset{t}{\underset{r=t+1-w}{\sum}}\rho^{t-r}\left(1-\rho\right)a_{r}^{2}+\epsilon}}a_{t}\\ \\ \frac{\sqrt{\overset{t-1}{\underset{r=t-w}{\sum}}\rho^{t-1-r}\left(1-\rho\right)j_{r}^{2}+\epsilon}}{\sqrt{\overset{t}{\underset{r=t+1-w}{\sum}}\rho^{t-r}\left(1-\rho\right)b_{r}^{2}+\epsilon}}b_{t}\\ \\ \frac{\sqrt{\overset{t-1}{\underset{r=t-w}{\sum}}\rho^{t-1-r}\left(1-\rho\right)k_{r}^{2}+\epsilon}}{\sqrt{\overset{t}{\underset{r=t+1-w}{\sum}}\rho^{t-r}\left(1-\rho\right)c_{r}^{2}+\epsilon}}c_{t} \end{gathered} \right) \end{gathered}$

— Oren Milman
quelle

From quora you'll find a more complete guide, but main ideas are that AdaGrad tries to taggle these problems in gradient learning rate selection in machine learning:

1 Manual selection of the learning rate η.

2 The gradient vector gt is scaled uniformly by a scalar learning rate η.

3 The learning rate η remains constant throughout the learning process.

It resolves concerns 2 and 3 simply by dividing each current gradient component by an L2 norm of past observed gradients for that particular component.

It has in itself the following issues:

1 Continually decaying learning rate η.

2 Manual selection of the learning rate η.

AdaDelta resolves AdaGrad concern 1 by summing the gradients only within a certain window W.

Concern 2 solution relates to mismatch in gradient units and thus

the actual accumulation process is implemented using a concept from momentum.

The last calculation needs understanding on momentum theory and it was shortly explained there in article.

My idea was to give the main causes behind what was intended, maybe that makes reading easier.

— mico
quelle