Ich führe Experimente mit dem EMNIST-Validierungssatz unter Verwendung von Netzwerken mit RMSProp, Adam und SGD durch. Ich erreiche eine Genauigkeit von 87% mit SGD (Lernrate von 0,1) und Dropout (0,1 Dropout Prob) sowie L2-Regularisierung (1e-05-Strafe). Wenn ich die gleiche exakte Konfiguration mit RMSProp und Adam sowie die anfängliche Lernrate von 0,001 teste, erreiche ich eine Genauigkeit von 85% und eine deutlich weniger glatte Trainingskurve. Ich weiß nicht, wie ich dieses Verhalten erklären soll. Was kann der Grund für die mangelnde Glätte in der Trainingskurve und die geringere Genauigkeit und höhere Fehlerraten sein?