Ich trainiere ein neuronales Netzwerk mit i) SGD und ii) Adam Optimizer. Bei Verwendung von normalem SGD erhalte ich eine glatte Kurve zwischen Trainingsverlust und Iteration (siehe unten) (die rote). Wenn ich jedoch den Adam Optimizer verwendet habe, weist die Trainingsverlustkurve einige Spitzen auf. Was ist die Erklärung für diese Spitzen?
Modelldetails:
14 Eingangsknoten -> 2 versteckte Ebenen (100 -> 40 Einheiten) -> 4 Ausgabeeinheiten
Ich verwende Standardparameter für Adam beta_1 = 0.9
, beta_2 = 0.999
, epsilon = 1e-8
und ein batch_size = 32
.