Laut diesem Tutorial zum Tiefenlernen wird Gewichtsabnahme (Regularisierung) normalerweise nicht auf die Verzerrungsterme angewendet. B Warum?
Welche Bedeutung (Intuition) steckt dahinter?
Laut diesem Tutorial zum Tiefenlernen wird Gewichtsabnahme (Regularisierung) normalerweise nicht auf die Verzerrungsterme angewendet. B Warum?
Welche Bedeutung (Intuition) steckt dahinter?
Antworten:
Eine Überanpassung erfordert normalerweise, dass die Ausgabe des Modells empfindlich auf kleine Änderungen der Eingabedaten reagiert (dh um die Zielwerte genau zu interpolieren, ist in der angepassten Funktion in der Regel eine starke Krümmung erforderlich). Die Bias-Parameter tragen nicht zur Krümmung des Modells bei, daher macht es normalerweise wenig Sinn, sie ebenfalls zu regulieren.
Die Motivation hinter L2 (oder L1) ist, dass Sie durch Einschränkung der Gewichte und Einschränkung des Netzwerks weniger wahrscheinlich überanpassungsfähig sind. Es ist wenig sinnvoll, die Gewichte der Verzerrungen zu beschränken, da die Verzerrungen fest sind (z. B. b = 1) und somit wie Neuronenabschnitte funktionieren, die sinnvoll sind, um eine höhere Flexibilität zu erhalten.
Ich würde hinzufügen, dass der Bias-Term oft mit einem Mittelwert von 1
anstatt von initialisiert wird 0
, daher möchten wir ihn möglicherweise so regulieren, dass er nicht zu weit von einem konstanten Wert wie " 1
doing 1/2*(bias-1)^2
than" entfernt wird 1/2*(bias)^2
.
Vielleicht könnte das Ersetzen des -1
Teils durch eine Subtraktion zum Mittelwert der Verzerrungen helfen, vielleicht ein Mittelwert pro Schicht oder ein Gesamtmittelwert. Dies ist jedoch nur eine Hypothese, die ich mache (über die mittlere Subtraktion).
Dies hängt alles auch von der Aktivierungsfunktion ab. ZB: Sigmoide sind hier möglicherweise schlecht für das Verschwinden von Verläufen, wenn Vorurteile auf hohe konstante Offsets geregelt werden.
Das Tutorial besagt, dass das Anwenden des Gewichtsabfalls auf die Bias-Einheiten normalerweise nur einen kleinen Unterschied zum endgültigen Netzwerk ausmacht. Wenn dies nicht hilft, können Sie damit aufhören, um einen Hyperparameter zu eliminieren. Wenn Sie der Meinung sind, dass das Regularisieren des Offsets in Ihrem Setup hilfreich ist, überprüfen Sie es gegenseitig. Es schadet nicht, es zu versuchen.