In den Papieren, wie dies oft ich die Ausbildung Kurven mit dieser Art von Form sehen:
In diesem Fall wurde SGD mit einem Faktor von 0,9 verwendet und die Lernrate nahm alle 30 Epochen um den Faktor 10 ab.
- Warum nimmt der Fehler so stark ab, wenn die Lernrate geändert wird?
- Warum nimmt der Validierungsfehler nach dem ersten Abfall zu, während der Trainingsfehler weiter abnimmt?
- Können die gleichen Ergebnisse erzielt werden, wenn die Änderungen der 2. und der nachfolgenden Lernrate näher zusammenrücken? Das heißt, warum sinkt die Verzögerung bei der weiteren Ausführung?