Die Chargennormalisierung wird in diesem Artikel als Normalisierung der Eingabe in eine Aktivierungsfunktion mit den Skalierungs- und Verschiebungsvariablen und β beschrieben . In diesem Artikel wird hauptsächlich die Verwendung der Sigmoid-Aktivierungsfunktion beschrieben, was sinnvoll ist. Es scheint mir jedoch, dass das Einspeisen einer Eingabe aus der durch die Chargennormalisierung erzeugten normalisierten Verteilung in eine ReLU-Aktivierungsfunktion von m a x ( 0 , x ) riskant ist, wenn βlernt nicht, die meisten Eingaben nach 0 zu verschieben, damit die ReLU keine Eingabeinformationen verliert. Das heißt, wenn die Eingabe in die ReLU nur standardmäßig normalisiert wäre, würden wir viele unserer Informationen unter 0 verlieren. Gibt es eine Garantie oder Initialisierung von , die garantiert, dass wir diese Informationen nicht verlieren? Vermisse ich etwas an der Funktionsweise von BN und ReLU?