Die ReLU-Funktion istNormalerweise wird dies elementweise auf die Ausgabe einer anderen Funktion angewendet, beispielsweise eines Matrixvektorprodukts. Bei MLP-Anwendungen ersetzen Gleichrichtereinheiten alle anderen Aktivierungsfunktionen mit Ausnahme der Ausleseschicht. Aber ich nehme an, Sie könnten sie kombinieren, wenn Sie möchten.f( x ) = max ( 0 , x ) .
Eine Möglichkeit zur Verbesserung neuronaler Netze durch ReLUs ist die Beschleunigung des Trainings. Die Gradientenberechnung ist sehr einfach (entweder 0 oder 1, abhängig vom Vorzeichen von x ). Auch der Rechenschritt einer ReLU ist einfach: Negative Elemente werden auf 0,0 gesetzt - keine Exponentiale, keine Multiplikations- oder Divisionsoperationen.
Gradienten von logistischen und hyperbolischen Tangens-Netzwerken sind kleiner als der positive Anteil der ReLU. Dies bedeutet, dass der positive Teil im Verlauf des Trainings schneller aktualisiert wird. Dies ist jedoch mit Kosten verbunden. Der 0-Gradient auf der linken Seite hat ein eigenes Problem, das als "tote Neuronen" bezeichnet wird. Bei diesem Problem werden die eingehenden Werte durch eine Gradientenaktualisierung auf eine ReLU gesetzt, sodass die Ausgabe immer Null ist. Modifizierte ReLU-Einheiten wie ELU (oder Leaky ReLU oder PReLU usw.) können dies verbessern.
ddxReLU ( x ) = 1 ≤ x > 0 . Der Gradient einer Sigma-Einheit beträgt dagegen höchstens ; Andererseits ist für Eingaben in einer Region nahe 0 günstiger, da (ungefähr).0,25Tanh0,25 < ddxTanh( X ) ≤ 1 ∀ x ∈ [ - 1,31 , 1,31 ]