Warum ist es manchmal von Vorteil, die Batch-Größe bei der Schulung von Modellen für maschinelles Lernen auf einer Potenz von 2 zu halten? Ich dachte, es wäre am besten, eine Größe zu verwenden, die am besten zu Ihrem GPU-Speicher / RAM passt.
Diese Antwort besagt, dass für einige Pakete eine Zweierpotenz besser als eine Stapelgröße ist. Kann jemand eine ausführliche Erklärung / einen Link zu einer ausführlichen Erklärung dafür bereitstellen? Gilt dies für alle Optimierungsalgorithmen (Gradientenabstieg, Rückausbreitung usw.) oder nur für einige davon?