Ich schaue mir an, wie man Dropout in einem tiefen neuronalen Netzwerk implementiert, und fand etwas, das nicht intuitiv ist. In der Vorwärtsphase fallen Dropout-Maskenaktivierungen mit einem zufälligen Tensor von 1s und 0s an, um das Netz zu zwingen, den Durchschnitt der Gewichte zu lernen. Dies hilft dem Netz, besser zu verallgemeinern. Während der Aktualisierungsphase des Gradientenabfalls werden die Aktivierungen jedoch nicht maskiert. Dies scheint mir nicht intuitiv zu sein. Wenn ich Verbindungsaktivierungen mit Dropout maskiere, warum sollte ich dann die Gradientenabstiegsphase nicht maskieren?