In SGD wäre eine Epoche die vollständige Darstellung der Trainingsdaten, und dann würde es N Gewichtsaktualisierungen pro Epoche geben (wenn der Trainingssatz N Datenbeispiele enthält).
Wenn wir jetzt stattdessen Mini-Batches durchführen, beispielsweise in Batches von 20. Besteht eine Epoche jetzt aus N / 20 Gewichtsaktualisierungen oder wird eine Epoche um 20 'verlängert', sodass sie die gleiche Anzahl von Gewichtsaktualisierungen enthält?
Ich frage dies, da in einigen Artikeln das Lernen für die angegebene Anzahl von Epochen zu schnell zu sein scheint.