Ich bereite mich gerade auf eine Prüfung über neuronale Netze vor. In mehreren Protokollen aus früheren Untersuchungen habe ich gelesen, dass die Aktivierungsfunktionen von Neuronen (in mehrschichtigen Perzeptronen) monoton sein müssen.
Ich verstehe, dass Aktivierungsfunktionen differenzierbar sein sollten, eine Ableitung haben sollten, die in den meisten Punkten nicht 0 ist, und nicht linear sein sollten. Ich verstehe nicht, warum es wichtig / hilfreich ist, monoton zu sein.
Ich kenne die folgenden Aktivierungsfunktionen und weiß, dass sie monoton sind:
- ReLU
- Sigmoid
- Tanh
- Softmax: Ich bin mir nicht sicher, ob die Definition der Monotonie für die Funktionen mit
- Softplus
- (Identität)
Ich sehe jedoch immer noch keinen Grund, warum zum Beispiel .
Warum müssen Aktivierungsfunktionen monoton sein?
(Verwandte Nebenfrage: Gibt es einen Grund, warum der Logarithmus / die Exponentialfunktion nicht als Aktivierungsfunktion verwendet wird?)