Was bedeutet der Begriff sättigende Nichtlinearitäten?

Ich habe die Abhandlung ImageNet Classification with Deep Convolutional Neural Networks gelesen und in Abschnitt 3 wurde die Architektur ihres Convolutional Neural Network erläutert, wie sie es vorzogen:

nicht sättigende Nichtlinearität $f(x) = max(0, x).$

weil es schneller war zu trainieren. In dieser Arbeit scheinen sie sich auf gesättigte Nichtlinearitäten als die traditionelleren Funktionen zu beziehen, die in CNNs, den Sigmoid- und den hyperbolischen Tangensfunktionen verwendet werden (dh und als gesättigt). $f(x) = tanh(x)$ $f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}$

Warum bezeichnen sie diese Funktionen als "Sättigen" oder "Nicht-Sättigen"? In welchem Sinne sind diese Funktionen "gesättigt" oder "nicht gesättigt"? Was bedeuten diese Begriffe im Kontext von Faltungs-Neuronalen Netzen? Werden sie in anderen Bereichen des maschinellen Lernens (und der Statistik) verwendet?

— Charlie Parker
quelle

Ich fand auch diese Quora-Antwort sehr hilfreich.

— Frank

Antworten:

Intuition

Eine Sättigungsaktivierungsfunktion drückt den Eingang zusammen.

Definitionen

$f$ ist nicht gesättigt, wenn $(|\lim_{z\to-\infty} f(z)| = +\infty) \vee (|\lim_{z\to+\infty} f(z)| = +\infty)$
$f$ ist gesättigt, wenn nicht gesättigt ist. $f$

Diese Definitionen sind nicht spezifisch für neuronale Faltungsnetze.

Beispiele

Die Aktivierungsfunktion der gleichgerichteten Lineareinheit (Rectified Linear Unit, ReLU), die als ist ist nicht gesättigt, da : $f(x)=max(0,x)$ $\lim_{z\to+\infty} f(z) = +\infty$

Die Sigma-Aktivierungsfunktion, die als ist, ist gesättigt, weil sie reelle Zahlen in einem Bereich zwischen : $f(x) = \frac{1}{1 + e^{-x}}$ $[0,1]$

Die tanh-Aktivierungsfunktion (hyperbolische Tangente) ist gesättigt, da sie reelle Zahlen in einem Bereich zwischen : $[-1,1]$

(Zahlen stammen aus CS231n , MIT-Lizenz)

— Franck Dernoncourt
quelle

ah, schön macht Sinn! Ich weiß, dass dies nicht meine ursprüngliche Frage war, aber was ist diese Eigenschaft im Kontext von ML und CNNs wichtig?

— Charlie Parker

Vermeiden Sie bei ANNs, eine Einheit mit einer großen Ausgabe zu haben, die sich zu stark auf die Ausgabeschicht des ANN auswirkt.

— Franck Dernoncourt

Was ist der Unterschied zwischen Bräune und Sigmoid? beide drücken die Zahlen in einem geschlossenen Bereich zusammen! Ich verstehe es nicht. Können Sie das noch genauer erläutern? Ich bin ein bisschen schlecht in Mathematik. (

— Rika

@FranckDernoncourt Meinten Sie Sättigung für Tanh-Aktivierungsfunktion? Ich denke, es gibt einen Tippfehler? :)

— CoderSpinoza

@tenCupMaximum: Um sättigen Mittel zu einem Punkt zu füllen , wo nicht mehr hinzugefügt werden kann. Im Kontext einer Sättigungsfunktion bedeutet dies, dass eine weitere Erhöhung der Eingabe der Funktion nach einem bestimmten Punkt keine (sinnvolle) Erhöhung ihrer Ausgabe mehr hervorruft, die (fast) ihren Maximalwert erreicht hat. Die Funktion ist dann sozusagen "voll" (oder gesättigt ).

— Ruben van Bergen

Die häufigsten Aktivierungsfunktionen sind LOG und TanH. Diese Funktionen haben einen kompakten Bereich, was bedeutet, dass sie die neuronale Antwort in eine begrenzte Teilmenge der reellen Zahlen komprimieren. Das LOG komprimiert Eingänge zu Ausgängen zwischen 0 und 1, die TAN H zwischen -1 und 1. Diese Funktionen zeigen ein begrenzendes Verhalten an den Grenzen.

An der Grenze ist der Gradient der Ausgabe in Bezug auf die Eingabe ∂yj / ∂xj sehr klein. Gradient ist also klein, daher kleine Schritte bis zur Konvergenz, daher längere Zeit bis zur Konvergenz.

— Pradi KL
quelle