Angenommen, ich habe eine Modellarchitektur für tiefes Lernen sowie eine ausgewählte Mini-Batch-Größe. Wie leite ich daraus die erwarteten Speicheranforderungen für das Training dieses Modells ab?
Betrachten Sie als Beispiel ein (nicht wiederkehrendes) Modell mit einer Eingabe der Dimension 1000, 4 vollständig verbundenen verborgenen Schichten der Dimension 100 und einer zusätzlichen Ausgabeebene der Dimension 10. Die Mini-Batch-Größe beträgt 256 Beispiele. Wie bestimmt man den ungefähren Speicherbedarf (RAM) des Trainingsprozesses auf der CPU und der GPU? Wenn es einen Unterschied macht, nehmen wir an, dass das Modell auf einer GPU mit TensorFlow trainiert wird (also mit cuDNN).