Ich verstehe die Vorteile von ReLU, bei dem tote Neuronen während der Rückübertragung vermieden werden.
Das ist nicht ganz richtig. Die Neuronen sind nicht tot. Wenn Sie Sigmoid-ähnliche Aktivierungen verwenden, sättigen sich nach einigen Iterationen die Werte der Gradienten für die meisten Neuronen. Der Gradientenwert ist so gering und der Lernprozess verläuft so langsam. Dies ist das Verschwinden und Explodieren von Verläufen, die in sigmoidartigen Aktivierungsfunktionen vorkommen. Umgekehrt können die toten Neuronen auftreten, wenn Sie ReLU
Nichtlinarität verwenden, die als sterbende ReLU bezeichnet wird .
Ich kann nicht verstehen, warum ReLU als Aktivierungsfunktion verwendet wird, wenn seine Ausgabe linear ist
Auf jeden Fall ist es nicht linear. Als einfache Definition ist lineare Funktion eine Funktion, die dieselbe Ableitung für die Eingaben in ihrer Domäne hat.
Die lineare Funktion ist in der Wirtschaft populär. Es ist attraktiv, weil es einfach und mathematisch leicht zu handhaben ist. Es hat viele wichtige Anwendungen. Lineare Funktionen sind solche, deren Graph eine gerade Linie ist. Eine lineare Funktion hat die folgende Form:
y = f (x) = a + bx
Eine lineare Funktion hat eine unabhängige Variable und eine abhängige Variable. Die unabhängige Variable ist x und die abhängige Variable ist y.
a ist der konstante Term oder der y-Achsenabschnitt. Dies ist der Wert der abhängigen Variablen, wenn x = 0 ist.
b ist der Koeffizient der unabhängigen Variablen. Sie wird auch als Steigung bezeichnet und gibt die Änderungsrate der abhängigen Variablen an.
ReLU
ist nicht linear . Die einfache Antwort ist, dass die ReLU
Ausgabe keine gerade Linie ist, sondern sich an der x-Achse biegt. Der interessantere Punkt ist die Konsequenz dieser Nichtlinearität. Mit linearen Funktionen können Sie die Feature-Ebene mit einer geraden Linie zerlegen. Mit der Nichtlinearität von ReLU
s können Sie jedoch beliebig geformte Kurven auf der Feature-Ebene erstellen.
ReLU
kann einen Nachteil haben, der sein erwarteter Wert ist. Es gibt keine Begrenzung für die Ausgabe des Relu
und sein erwarteter Wert ist nicht Null. Tanh
war beliebter als, sigmoid
weil sein erwarteter Wert gleich Null ist und das Lernen in tieferen Schichten schneller erfolgt. Obwohl ReLU
nicht diesen Vorteil hat, batch normalization
löst dieses Problem .
Sie können auch hier und hier für weitere Informationen verweisen .