Die derzeit am häufigsten verwendeten Aktivierungsfunktionen sind die von Re-Lu. Also habe ich diese Frage beantwortet. Was ist der Zweck einer Aktivierungsfunktion in neuronalen Netzen? und als ich die Antwort schrieb, fiel mir auf, wie genau kann Re-Lus ungefähre nichtlineare Funktion sein?
Nach rein mathematischer Definition ist es aufgrund der scharfen Biegung sicher eine nichtlineare Funktion, aber wenn wir uns nur auf den positiven oder negativen Teil der x-Achse beschränken, dann ist sie in diesen Bereichen linear. Nehmen wir an, wir nehmen auch die gesamte x-Achse, dann auch ihre Art linear (nicht im strengen mathematischen Sinne) in dem Sinne, dass sie kurvenreiche Funktionen wie die Sinuswelle ( 0 --> 90
) nicht zufriedenstellend mit einer verborgenen Schicht eines einzelnen Knotens approximieren kann, wie dies durch ein Sigmoid möglich ist Aktivierungsfunktion.
Was ist also die Intuition hinter der Tatsache, dass Re-Lus in NNs verwendet werden und eine zufriedenstellende Leistung erbringen (ich frage nicht nach dem Zweck von Re-Lus), obwohl sie irgendwie linear sind? Oder werden nichtlineare Funktionen wie Sigmoid und Tanh manchmal in die Mitte des Netzwerks geworfen?
EDIT: Gemäß @ Ekas Kommentar leitet Re-Lu seine Fähigkeit von der Diskontinuität ab, die in den tiefen Schichten des neuronalen Netzes wirkt. Bedeutet dies, dass Re-Lus gut sind, solange wir sie in Deep NNs verwenden und nicht in flachen NNs?
max(0,x)
in tiefen Schichten eines neuronalen Netzwerks wirken. Es gibt eine Openai-Forschung, in der sie nichtlineare Funktionen unter Verwendung eines tiefen linearen Netzwerks berechnet haben. Hier ist der Link blog.openai.com/nonlinear-computation-in-linear-networks