Während ich die Batch-Normalisierung lernte, dachte ich, warum können wir das "Gradientenskalenproblem" nicht mit einer geeigneten Aktivierungsfunktion lösen?
Können wir die Aktivierungsfunktion nicht verzögern und skalieren, anstatt den gesamten Datensatz zu skalieren und sicherzustellen, dass die Varianz dadurch erhalten bleibt?