Welche Schicht verbraucht mehr Zeit im CNN-Training? Faltungsschichten gegen FC-Schichten

11

Welche Schicht verbraucht im Convolutional Neural Network maximal Zeit im Training? Faltungsschichten oder vollständig verbundene Schichten? Wir können die AlexNet-Architektur verwenden, um dies zu verstehen. Ich möchte eine zeitliche Aufteilung des Trainingsprozesses sehen. Ich möchte einen relativen Zeitvergleich, damit wir jede konstante GPU-Konfiguration vornehmen können.

neural-networks deep-learning convolutional-neural-networks

— Ruchit Dalwadi
quelle

11

HINWEIS: Ich habe diese Berechnungen spekulativ durchgeführt, sodass sich möglicherweise einige Fehler eingeschlichen haben. Bitte informieren Sie über solche Fehler, damit ich sie korrigieren kann.

Im Allgemeinen wird in jedem CNN die maximale Trainingszeit für die Rückübertragung von Fehlern in der vollständig verbundenen Ebene verwendet (abhängig von der Bildgröße). Auch der maximale Speicher wird von ihnen belegt. Hier ist eine Folie von Stanford über die VGG Net-Parameter:

Sie können deutlich sehen, dass die vollständig verbundenen Schichten zu etwa 90% der Parameter beitragen. Der maximale Speicher wird also von ihnen belegt.

$(3*3*3)$ $(3*3*3)$ $224*224$ $224*224*(3*3*3)$ $64$ $224*224$ $64*224*224*(3*3*3) \approx 87*10^6$

$56*56*256$ $56*56$ $(3*3*256)$ $56*56$ $256 * 56 * 56 * (3*3*256) \approx 1850 *10^6$

$stride = 1$

$channels_{output} * (pixelOutput_{height} * pixelOutput_{width}) * (filter_{height} * filter_{width} * channels_{input})$

Dank schneller GPUs sind wir leicht in der Lage, diese riesigen Berechnungen durchzuführen. In FC-Schichten muss jedoch die gesamte Matrix geladen werden, was zu Speicherproblemen führt, was im Allgemeinen bei Faltungsschichten nicht der Fall ist, so dass das Training von Faltungsschichten immer noch einfach ist. Außerdem müssen alle diese in den GPU-Speicher selbst und nicht in den RAM der CPU geladen werden.

Auch hier ist das Parameterdiagramm von AlexNet: