Batch-Normalisierung und ReLUs sind beide Lösungen für das Problem des verschwindenden Gradienten. Wenn wir die Chargennormalisierung verwenden, sollten wir dann Sigmoide verwenden? Oder gibt es Funktionen von ReLUs, die sie auch bei Verwendung von Batchnorm lohnenswert machen?
Ich nehme an, dass die in Batchnorm durchgeführte Normalisierung keine negativen Aktivierungen aussendet. Bedeutet das, dass Batchnorm das Problem "Dead ReLU" löst?
Aber die Kontinuität von Tanh und Logistik bleibt attraktiv. Wenn ich Batchnorm verwende, funktioniert Tanh besser als ReLU?
Ich bin sicher, dass die Antwort davon abhängt . Was hat in Ihrer Erfahrung funktioniert und was sind die herausragenden Merkmale Ihrer Anwendung?