Gibt es Literatur, die die Wahl der Minibatch-Größe bei der Durchführung eines stochastischen Gradientenabfalls untersucht? Nach meiner Erfahrung scheint es sich um eine empirische Entscheidung zu handeln, die normalerweise durch Kreuzvalidierung oder unter Verwendung unterschiedlicher Faustregeln getroffen wird.
Ist es eine gute Idee, die Minibatch-Größe langsam zu erhöhen, wenn der Validierungsfehler abnimmt? Welche Auswirkungen hätte dies auf den Generalisierungsfehler? Bin ich besser dran, wenn ich ein extrem kleines Minibatch verwende und mein Modell hunderttausend Mal aktualisiere? Wäre ich mit einer ausgeglichenen Zahl zwischen extrem klein und chargenweise besser dran?
Sollte ich die Größe meines Minibatchs mit der Größe des Datensatzes oder der erwarteten Anzahl von Features innerhalb des Datensatzes skalieren?
Ich habe offensichtlich viele Fragen zur Implementierung von Minibatch-Lernschemata. Leider geben die meisten Artikel, die ich lese, nicht wirklich an, wie sie diesen Hyperparameter gewählt haben. Ich hatte einige Erfolge von Autoren wie Yann LeCun, insbesondere von der Tricks of the Trade-Papiersammlung. Ich habe diese Fragen jedoch noch nicht vollständig beantwortet. Hat jemand Empfehlungen für Artikel oder Ratschläge, anhand welcher Kriterien ich gute Minibatch-Größen bestimmen kann, wenn ich versuche, Funktionen zu erlernen?