Warum wird ReLU als Aktivierungsfunktion verwendet?

19

Aktivierungsfunktionen werden verwendet, um Nichtlinearitäten in den linearen Ausgang des Typs w * x + bin einem neuronalen Netzwerk einzuführen .

Was ich für die Aktivierungsfunktionen wie Sigmoid intuitiv verstehen kann.

Ich verstehe die Vorteile von ReLU, bei dem tote Neuronen während der Rückübertragung vermieden werden. Ich kann jedoch nicht verstehen, warum ReLU als Aktivierungsfunktion verwendet wird, wenn der Ausgang linear ist.

Wird der Sinn der Aktivierungsfunktion nicht zunichte gemacht, wenn keine Nichtlinearität eingeführt wird?

— Häschen
quelle

19

In der Mathematik wird eine Funktion immer dann als linear betrachtet, wenn eine Funktion für jedes und in der Domäne die folgende Eigenschaft hat: . Per Definition ist die ReLU . Wenn wir also die Domäne von oder ist die Funktion linear. Es ist jedoch leicht zu erkennen, dass . Daher ist ReLU per Definition nicht linear. $f: A \rightarrow B$ $x$ $y$ $A$ $f(x) + f(y) = f(x+y)$ $max(0,x)$ $(-\infty, 0]$ $[0, \infty)$ $f(-1) + f(1) \neq f(0)$

Trotzdem ist ReLU so nah an der Linearität, dass die Menschen oft verwirrt sind und sich fragen, wie es als universeller Approximator verwendet werden kann. Meiner Erfahrung nach ist die beste Art, über sie nachzudenken, Riemannsche Summen. Sie können beliebige stetige Funktionen mit vielen kleinen Rechtecken approximieren. ReLU-Aktivierungen können viele kleine Rechtecke erzeugen. Tatsächlich kann ReLU in der Praxis ziemlich komplizierte Formen erstellen und viele komplizierte Bereiche approximieren.

Ich möchte noch einen weiteren Punkt klarstellen. Wie bereits in einer früheren Antwort erwähnt, sterben Neuronen nicht in Sigmoid, sondern verschwinden. Der Grund dafür ist, dass die Ableitung der Sigmoidfunktion maximal 0,25 beträgt. Nach so vielen Schichten multiplizieren Sie diese Verläufe und das Produkt von sehr kleinen Zahlen unter 1 geht sehr schnell gegen Null.

Wenn Sie also ein tiefgreifendes Lernnetzwerk mit vielen Ebenen aufbauen, werden Ihre Sigmoid-Funktionen im Wesentlichen ziemlich schnell stagnieren und mehr oder weniger unbrauchbar.

Der entscheidende Vorteil ist, dass das Verschwinden von der Multiplikation der Farbverläufe und nicht von den Farbverläufen selbst herrührt.

— Tophat
quelle

6

Ich verstehe die Vorteile von ReLU, bei dem tote Neuronen während der Rückübertragung vermieden werden.

Das ist nicht ganz richtig. Die Neuronen sind nicht tot. Wenn Sie Sigmoid-ähnliche Aktivierungen verwenden, sättigen sich nach einigen Iterationen die Werte der Gradienten für die meisten Neuronen. Der Gradientenwert ist so gering und der Lernprozess verläuft so langsam. Dies ist das Verschwinden und Explodieren von Verläufen, die in sigmoidartigen Aktivierungsfunktionen vorkommen. Umgekehrt können die toten Neuronen auftreten, wenn Sie ReLUNichtlinarität verwenden, die als sterbende ReLU bezeichnet wird .

Ich kann nicht verstehen, warum ReLU als Aktivierungsfunktion verwendet wird, wenn seine Ausgabe linear ist

Auf jeden Fall ist es nicht linear. Als einfache Definition ist lineare Funktion eine Funktion, die dieselbe Ableitung für die Eingaben in ihrer Domäne hat.

Die lineare Funktion ist in der Wirtschaft populär. Es ist attraktiv, weil es einfach und mathematisch leicht zu handhaben ist. Es hat viele wichtige Anwendungen. Lineare Funktionen sind solche, deren Graph eine gerade Linie ist. Eine lineare Funktion hat die folgende Form:

y = f (x) = a + bx

Eine lineare Funktion hat eine unabhängige Variable und eine abhängige Variable. Die unabhängige Variable ist x und die abhängige Variable ist y.

a ist der konstante Term oder der y-Achsenabschnitt. Dies ist der Wert der abhängigen Variablen, wenn x = 0 ist.

b ist der Koeffizient der unabhängigen Variablen. Sie wird auch als Steigung bezeichnet und gibt die Änderungsrate der abhängigen Variablen an.

ReLUist nicht linear . Die einfache Antwort ist, dass die ReLUAusgabe keine gerade Linie ist, sondern sich an der x-Achse biegt. Der interessantere Punkt ist die Konsequenz dieser Nichtlinearität. Mit linearen Funktionen können Sie die Feature-Ebene mit einer geraden Linie zerlegen. Mit der Nichtlinearität von ReLUs können Sie jedoch beliebig geformte Kurven auf der Feature-Ebene erstellen.

ReLUkann einen Nachteil haben, der sein erwarteter Wert ist. Es gibt keine Begrenzung für die Ausgabe des Reluund sein erwarteter Wert ist nicht Null. Tanhwar beliebter als, sigmoidweil sein erwarteter Wert gleich Null ist und das Lernen in tieferen Schichten schneller erfolgt. Obwohl ReLUnicht diesen Vorteil hat, batch normalizationlöst dieses Problem .

Sie können auch hier und hier für weitere Informationen verweisen .

— Medien
quelle