Gibt es eine Aktivierungsfunktion, die die Batch-Normalisierung überflüssig machen kann?

Während ich die Batch-Normalisierung lernte, dachte ich, warum können wir das "Gradientenskalenproblem" nicht mit einer geeigneten Aktivierungsfunktion lösen?

Können wir die Aktivierungsfunktion nicht verzögern und skalieren, anstatt den gesamten Datensatz zu skalieren und sicherzustellen, dass die Varianz dadurch erhalten bleibt?

machine-learning

— Totem
quelle

Ich denke, Sie liegen ein bisschen falsch, Sie sprechen eher von Datennormalisierung als von Batch-Normalisierung. Ersteres ist ein Vorverarbeitungsschritt.

— Medien

Ich habe über das Normalisieren auf jeder Ebene "automatisch" oder das Normalisieren am Anfang gesprochen und die Form der Daten durch Ebenen beibehalten.

— Totem

Was Sie beschreiben, klingt sehr nach skalierten exponentiellen linearen Einheiten (Scaled-Exponential Linear Units, SELUs), die den Kern selbstnormalisierender neuronaler Netze bilden , die auf der NIPS 2017 vorgestellt wurden.

Eine kurze Zusammenfassung von hier ist:

Wenn der Mittelwert und die Varianz der Eingabe in einem bestimmten Bereich liegen, sollten der Mittelwert und die Varianz der Ausgabe (1) auch in diesem Bereich und (2) nach iterativer Anwendung der Aktivierungsfunktion zu einem festen Punkt konvergieren.

Vielleicht möchten Sie einen Blick auf die reddit Post-Kommentare werfen . Wenn Sie sie vollständig verstehen möchten, können Sie mit dem 90-seitigen Anhang des arxiv-Vorabdrucks fortfahren .

Sie haben viel Aufmerksamkeit erhalten, als sie präsentiert wurden, aber ich denke, sie haben die Erwartungen nicht erfüllt, da in letzter Zeit im Internet niemand über sie zu sprechen scheint .

— ncasas
quelle

Es wurde sechs Monate nach der Ausgabe meines Lehrbuchs veröffentlicht. Die Wichtigkeit, den Nachrichten zu folgen! Danke für die Details. Gibt es einen Grund, warum "niemand über sie zu sprechen scheint"?

— Totem

Ich weiß nicht, ob es technische Gründe gibt oder nicht, aber vielleicht werden die Leute aufgrund der Praktiken der " Abstammung von Studenten " in letzter Zeit skeptisch , was es schwieriger macht, eine Adoption zu erhalten, wenn nicht spektakuläre und konsistente SOTA-Ergebnisse erzielt werden.

— ncasas

Meine Erfahrung mit elubestätigt Ihre letzte Aussage: Die Leistung ist sehr ähnlich relu, nicht viel besser oder schlechter, aber langsamer.

— Maxim

Ich habe deine Antwort @ncasas verpasst, danke, ich werde das überprüfen.

— Totem