Ich glaube, die Antwort hängt vom Szenario ab.
Betrachten Sie NN (neuronales Netzwerk) als Operator F, so dass F (Eingabe) = Ausgabe . In dem Fall, in dem diese Beziehung linear ist, so dass F (A * Eingabe) = A * Ausgabe ist , können Sie entweder die Eingabe / Ausgabe in ihrer Rohform nicht normalisieren lassen oder beide normalisieren, um A zu eliminieren. Offensichtlich ist diese Linearitätsannahme verletzt in Klassifizierungsaufgaben oder fast jeder Aufgabe, die eine Wahrscheinlichkeit ausgibt, wobei F (A * Eingabe) = 1 * Ausgabe
In der Praxis ermöglicht die Normalisierung, dass nicht anpassbare Netzwerke anpassbar sind, was für Experimentatoren / Programmierer von entscheidender Bedeutung ist. Die genaue Auswirkung der Normalisierung hängt jedoch nicht nur von der Netzwerkarchitektur / dem Netzwerkalgorithmus ab, sondern auch von der statistischen Priorität für die Eingabe und Ausgabe.
Darüber hinaus wird NN häufig implementiert, um sehr schwierige Probleme in einer Black-Box-Weise zu lösen. Dies bedeutet, dass das zugrunde liegende Problem möglicherweise eine sehr schlechte statistische Formulierung aufweist, was es schwierig macht, die Auswirkungen der Normalisierung zu bewerten, was den technischen Vorteil verursacht (passend wird). über seine Auswirkungen auf die Statistik zu dominieren.
Im statistischen Sinne entfernt die Normalisierung Variationen, von denen angenommen wird, dass sie bei der Vorhersage der Ausgabe nicht kausal sind, um zu verhindern, dass NN diese Variation als Prädiktor lernt ( NN sieht diese Variation nicht und kann sie daher nicht verwenden ).