Ja, es ist sehr üblich, beide Tricks anzuwenden. Sie lösen verschiedene Probleme und können gut zusammenarbeiten.
Eine Möglichkeit, darüber nachzudenken, besteht darin, dass der Gewichtsabfall die zu optimierende Funktion ändert , während der Impuls den Weg zum Optimum ändert .
Durch das Verringern der Koeffizienten auf null wird sichergestellt, dass Sie ein lokales Optimum mit Parametern kleiner Größe finden. Dies ist normalerweise entscheidend, um eine Überanpassung zu vermeiden (obwohl auch andere Arten von Einschränkungen für die Gewichte funktionieren können). Als Nebeneffekt kann das Modell auch einfacher optimiert werden, indem die Zielfunktion konvexer gestaltet wird.
Sobald Sie eine objektive Funktion haben, müssen Sie entscheiden, wie Sie sich darauf bewegen möchten. Der steilste Abstieg auf dem Gefälle ist der einfachste Ansatz, aber Sie haben Recht, dass Schwankungen ein großes Problem sein können. Das Hinzufügen von Schwung hilft, dieses Problem zu lösen. Wenn Sie mit Batch-Updates arbeiten (was normalerweise bei neuronalen Netzen eine schlechte Idee ist), sind Schritte vom Typ Newton eine weitere Option. Die neuen "heißen" Ansätze basieren auf dem beschleunigten Gradienten von Nesterov und der sogenannten "hessisch-freien" Optimierung.
Aber unabhängig davon , welche diese Fortschreibungsregeln verwenden Sie (momentum, Newton, etc.), sind Sie immer noch die Arbeit mit der gleichen Zielfunktion, die durch Ihre Fehlerfunktion (zB quadratischen Fehler) und andere Einschränkungen (zB Gewicht Zerfall) bestimmt wird , . Die Hauptfrage bei der Entscheidung, welche davon verwendet werden soll, ist, wie schnell Sie zu einem guten Satz von Gewichten gelangen.