In den Vorlesungsnotizen der dritten Woche der Coursera Machine Learning-Klasse von Andrew Ng wird der Kostenfunktion ein Begriff hinzugefügt, um die Regularisierung zu implementieren:
In den Vorlesungsunterlagen heißt es:
Wir könnten auch alle unsere Theta-Parameter in einer einzigen Summe regulieren:
wird später auf den Regularisierungsterm neuronaler Netze angewendet :
Denken Sie daran, dass die Kostenfunktion für die regulierte logistische Regression war:
Für neuronale Netze wird es etwas komplizierter sein:
- Warum wird hier die konstante Hälfte verwendet? Damit es in der Ableitung aufgehoben wird ?
- Warum die Aufteilung nach Trainingsbeispielen? Wie wirkt sich die Anzahl der Trainingsbeispiele auf die Dinge aus?