Neuronale Netze: Gewichtsänderungsimpuls und Gewichtsabfall

Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern: $\alpha$

wobeiist die Fehlerfunktion- der Vektor der Gewichte,- Lernrate.

Δ ω_{i} (t + 1) = - η \frac{\partial E}{\partial w_{i}} + α Δ ω_{i} (t),

$\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),$

E (w)

$E({\bf w})$

w

${\bf w}$

η

$\eta$

Gewichtsabnahme bestraft die Gewichtsveränderungen: $\lambda$

Δ ω_{i} (t + 1) = - η \frac{\partial E}{\partial w_{i}} - λ η ω_{i}

$\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i$

Die Frage ist, ob es sinnvoll ist, beide Tricks während der Rückübertragung zu kombinieren und welche Auswirkungen dies hätte.

Δ ω_{i} (t + 1) = - η \frac{\partial E}{\partial w_{i}} + α Δ ω_{i} (t) - λ η ω_{i}

$\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i$

— Oleg Shirokikh
quelle

Wollen Sie sagen, dass ωi (t + 1) = ωi - η ∂E / ∂wi + αΔωi (t) anstelle von Δωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?

— Hakunamatata

Ja, es ist sehr üblich, beide Tricks anzuwenden. Sie lösen verschiedene Probleme und können gut zusammenarbeiten.

Eine Möglichkeit, darüber nachzudenken, besteht darin, dass der Gewichtsabfall die zu optimierende Funktion ändert , während der Impuls den Weg zum Optimum ändert .

Durch das Verringern der Koeffizienten auf null wird sichergestellt, dass Sie ein lokales Optimum mit Parametern kleiner Größe finden. Dies ist normalerweise entscheidend, um eine Überanpassung zu vermeiden (obwohl auch andere Arten von Einschränkungen für die Gewichte funktionieren können). Als Nebeneffekt kann das Modell auch einfacher optimiert werden, indem die Zielfunktion konvexer gestaltet wird.

Sobald Sie eine objektive Funktion haben, müssen Sie entscheiden, wie Sie sich darauf bewegen möchten. Der steilste Abstieg auf dem Gefälle ist der einfachste Ansatz, aber Sie haben Recht, dass Schwankungen ein großes Problem sein können. Das Hinzufügen von Schwung hilft, dieses Problem zu lösen. Wenn Sie mit Batch-Updates arbeiten (was normalerweise bei neuronalen Netzen eine schlechte Idee ist), sind Schritte vom Typ Newton eine weitere Option. Die neuen "heißen" Ansätze basieren auf dem beschleunigten Gradienten von Nesterov und der sogenannten "hessisch-freien" Optimierung.

Aber unabhängig davon , welche diese Fortschreibungsregeln verwenden Sie (momentum, Newton, etc.), sind Sie immer noch die Arbeit mit der gleichen Zielfunktion, die durch Ihre Fehlerfunktion (zB quadratischen Fehler) und andere Einschränkungen (zB Gewicht Zerfall) bestimmt wird , . Die Hauptfrage bei der Entscheidung, welche davon verwendet werden soll, ist, wie schnell Sie zu einem guten Satz von Gewichten gelangen.

— David J. Harris
quelle

"Es kann auch die Optimierung des Modells erleichtern, indem die Zielfunktion konvexer gestaltet wird." - Können Sie bitte erläutern, wie dies durch kleinere Gewichte möglich wird?

— Alex

s i n (x)

$\mathrm{sin}(x)$

a x^{2}

$a x^2$

a

$a$

Schöne Antwort, danke. Was ist mit Adam Optimizer? Hat es eine bessere Leistung als die Kombination aus Gewichtsverlust und Schwung?

— A. Piro

Adam ist wie ein Impuls, aber nicht wie eine Gewichtsabnahme; Es beeinflusst, wie Sie durch die Zielfunktion navigieren, nicht jedoch die Zielfunktion selbst.

— David J. Harris