Warum ist die De-facto-Standard-Sigmoid-Funktion in (nicht-tiefen) neuronalen Netzwerken und logistischen Regressionen so beliebt? $\frac{1}{1+e^{-x}}$

Warum verwenden wir nicht viele der anderen ableitbaren Funktionen mit einer schnelleren Rechenzeit oder einem langsameren Zerfall (so dass der Gradient weniger verschwindet)? In Wikipedia gibt es nur wenige Beispiele für Sigmoidfunktionen . Einer meiner Favoriten mit langsamer Abnahme und schneller Berechnung ist . $\frac{x}{1+|x|}$

BEARBEITEN

Die Frage unterscheidet sich von der umfassenden Liste der Aktivierungsfunktionen in neuronalen Netzen mit Vor- / Nachteilen, da mich nur das Warum und nur das Sigma interessiert.

logistic neural-networks least-squares

— Mark Horvath
quelle

6

Beachten Sie, dass das logistische Sigmoid ein Sonderfall der Softmax-Funktion ist, und sehen Sie meine Antwort auf diese Frage: stats.stackexchange.com/questions/145272/…

— Neil G

10

Es gibt andere Funktionen wie probit oder cloglog, die häufig verwendet werden, siehe: stats.stackexchange.com/questions/20523/…

— Tim

4

@ user777 Ich bin nicht sicher, ob es sich um ein Duplikat handelt, da der Thread, auf den Sie verweisen, die Warum- Frage nicht wirklich beantwortet .

— Tim

@KarelMacek, sind Sie sicher, dass das Derivat kein Links- / Rechtslimit bei 0 hat? Sieht praktisch so aus, als hätte es einen schönen Tangential auf das verknüpfte Bild von Wikipedia.

— Mark Horvath

5

Ich hasse es, mit so vielen angesehenen Community-Mitgliedern nicht einverstanden zu sein, die dafür gestimmt haben, dieses Duplikat als Duplikat zu schließen, aber ich bin überzeugt, dass das scheinbare Duplikat nicht das "Warum" anspricht, und deshalb habe ich dafür gestimmt, diese Frage erneut zu eröffnen.

— whuber

24

Ich zitiere mich aus dieser Antwort auf eine andere Frage:

In Abschnitt 4.2 von Mustererkennung und maschinelles Lernen (Springer 2006) zeigt Bishop, dass das Logit natürlich als die Form der posterioren Wahrscheinlichkeitsverteilung in einer Bayes'schen Behandlung der Zwei-Klassen-Klassifikation entsteht. Anschließend zeigt er, dass dies auch für diskret verteilte Features gilt, sowie für eine Teilmenge der Familie der Exponentialverteilungen. Für die Klassifizierung mehrerer Klassen wird das Logit auf die normalisierte Exponential- oder Softmax-Funktion verallgemeinert.

Dies erklärt, warum dieses Sigma in der logistischen Regression verwendet wird.

In Bezug auf neuronale Netze wird in diesem Blogbeitrag erläutert, wie unterschiedliche Nichtlinearitäten, einschließlich des Logits / Softmax und des Probits, die in neuronalen Netzen verwendet werden, statistisch interpretiert und damit motiviert werden können. Die zugrunde liegende Idee ist, dass ein mehrschichtiges neuronales Netzwerk als eine Hierarchie verallgemeinerter linearer Modelle betrachtet werden kann; Aktivierungsfunktionen sind demnach Verknüpfungsfunktionen, die wiederum unterschiedlichen Verteilungsannahmen entsprechen.

— A. Donda
quelle

1

Toll! Wenn wir also Sigmoide in einem Netzwerk verwenden, können wir implizit davon ausgehen, dass das Netzwerk Wahrscheinlichkeiten verschiedener Ereignisse (in den internen Schichten oder in der Ausgabe) "modelliert". Dies kann ein sinnvolles Modell innerhalb eines Netzwerks sein, auch für quadratische Fehler (was dem Ausgangsneuron eine andere Aktivierungsfunktion ermöglicht). Ich habe noch nie an diese Intuition gedacht, danke!

— Mark Horvath

@ MarkHorvath Ich bin froh, dass ich helfen konnte. :-)

— A. Donda

Historisch nicht so. Meine beste Zusammenfassung einer chaotischen Geschichte ist, dass logit in die Statistikwissenschaften eingegangen ist, hauptsächlich, weil funktionale Formen, die zur Vorhersage von Veränderungen über die Zeit verwendet wurden (Populationen, die voraussichtlich logistischen Kurven folgen), bei der Anpassung und Übernahme als Verknüpfungsfunktionen [anachronistische Verwendung!] Für binäre Antworten ungefähr richtig ausgesehen haben ; und sie sind leicht mit einfachen Berechnungen zu manipulieren, was Ausdrücke in absoluten Werten nicht sind. Aber natürlich ist die einfachste logische Rechtfertigung für solche Funktionen interessant und entscheidend, und Ihre Antwort geht darauf ein.

— Nick Cox

1

Ich habe die Abschnitte in beiden Büchern des Bischofs (2006 und 1995) durchgelesen und bin immer noch nicht davon überzeugt, dass das Sigmoid hier unverzichtbar ist, obwohl ich die Motivation mit dem Logit auf jeden Fall bekomme. Was ist, wenn ich dieselbe Kreuzentropieverlustfunktion auf der Grundlage der 2-Klassen-Poisson-Annahme aufschreibe, dann aber eine andere Aktivierungsfunktion anstelle von Sigmoid verwende? Zum Beispiel wird dies ähnlich aber nicht ganz so schön stückweise definiert: g (x) = 1 / (2-2x) wenn x <0, 1 - 1 / (2 + 2x) für x> 0, g (0) = 0,5. Jetzt sieht die Max-Likelihood-Gleichung anders aus, aber wenn wir sie minimieren, erhalten wir dann immer noch Wahrscheinlichkeiten als Ausgabe?

— Äraoul

wenn Bischop

die "natürlich entstehende" Funktion

a = \frac{p (x, C_{1})}{\sqrt{(1 + p (x, C_{1})) p (x, C_{2})}}

$a = \frac{p(x, C_1)}{\sqrt{(1 + p(x, C_1)) p(x, C_2)}}$

, nicht wahr?

\frac{a}{\sqrt{1 + a^{2}}}

$\frac{a}{\sqrt{1 + a^2}}$

— Herr Tsjolder,

18

Ein Grund, warum diese Funktion "natürlicher" erscheint als andere, ist, dass es sich zufällig um die Umkehrung des kanonischen Parameters der Bernoulli-Verteilung handelt: (Die Funktion voninnerhalb des Exponenten wird als kanonischer Parameter bezeichnet.)

\begin{aligned} f (y) & = p^{y} (1 - p)^{1 - y} \\ = (1 - p) \exp {y \log (\frac{p}{1 - p})} . \end{aligned}

$\begin{align} f(y) &= p^y (1 - p)^{1 - y} \\ &= (1 - p) \exp \left \{ y \log \left ( \frac{p}{1 - p} \right ) \right \} . \end{align}$

p

$p$

Eine überzeugendere Rechtfertigung könnte die Informationstheorie sein, in der die Sigmoidfunktion als Maximum-Entropie-Modell hergeleitet werden kann . Grob gesagt nimmt die Sigmoidfunktion eine minimale Struktur an und spiegelt unseren allgemeinen Unkenntnisstand über das zugrunde liegende Modell wider.

— dsaxton
quelle

Gute Begründung für die logistische Regression. Die lustige Sache, dass wir dies auch für quadratische Fehler verwenden ...

— Mark Horvath

11

Ich habe mich diese Frage seit Monaten gestellt. Die Antworten auf CrossValidated und Quora zeigen alle nette Eigenschaften der logistischen Sigmoid-Funktion, aber es scheint, als hätten wir diese Funktion klug erraten. Was ich vermisst habe, war die Rechtfertigung für die Wahl. Ich habe endlich einen in Abschnitt 6.2.2.2 des "Deep Learning" -Buches von Bengio (2016) gefunden . In Meinen Eigenen Worten:

Kurz gesagt, wir möchten, dass der Logarithmus der Modellausgabe für eine gradientenbasierte Optimierung der Log-Wahrscheinlichkeit der Trainingsdaten geeignet ist.

Motivation

Wir wollen ein lineares Modell, aber wir können $z = w^T x + b$ direkt als $z \in (-\infty, +\infty)$ .
Für die Klassifizierung ist es sinnvoll, die Bernoulli-Verteilung anzunehmen und ihren Parameter $\theta$ in $P(Y=1) = \theta$ modellieren .
Also müssen wir $z$ von $(-\infty, +\infty)$ auf $[0, 1]$ abbilden um die Klassifizierung durchzuführen.

Warum die logistische Sigmoidfunktion?

Das Abschneiden von $z$ mit $P(Y=1|z) = max\{0, min\{1, z\}\}$ ergibt einen Nullgradienten für $z$ außerhalb von $[0, 1]$ . Wir brauchen einen starken Gradienten, wenn die Vorhersage des Modells falsch ist, weil wir die logistische Regression mit dem Gradientenabstieg lösen. Für die logistische Regression gibt es keine geschlossene Lösung.

Die logistische Funktion hat die nette Eigenschaft, einen konstanten Gradienten zu asymptotisieren, wenn die Vorhersage des Modells falsch ist, da wir die Maximum-Likelihood-Schätzung verwenden, um das Modell anzupassen. Dies ist unten gezeigt:

Für numerische Vorteile kann die Maximum-Likelihood-Schätzung durchgeführt werden, indem die negative Log-Likelihood der Trainingsdaten minimiert wird. Unsere Kostenfunktion lautet also:

\begin{aligned} J (w, b) & = \frac{1}{m} \sum_{i = 1}^{m} - \log P (Y = y_{i} | x_{i}; w, b) \\ = \frac{1}{m} \sum_{i = 1}^{m} - (y_{i} \log P (Y = 1 | z) + (y_{i} - 1) \log P (Y = 0 | z)) \end{aligned}

$\begin{align} J(w, b) &= \frac{1}{m} \sum_{i=1}^m -\log P(Y = y_i | x_i; w, b) \\ &= \frac{1}{m} \sum_{i=1}^m - \big(y_i \log P(Y=1 | z) + (y_i-1)\log P(Y=0 | z)\big) \end{align}$

$P(Y=0 | z) = 1-P(Y=1|z)$ $Y=1$ $P(Y=1 | z)$ $z = w^T x + b$

$f$ $z$ $P(Y=1 | z)$

$\forall z \in \mathbb{R}: f(z) \in [0, 1]$
$f(0) = 0.5$
$f$ $(0, 0.5)$ $f(-x) = 1-f(x)$
$f$

$f(z) = \frac{1}{1 + e^{-z}}$ $f(z) = 0.5 + 0.5 \frac{z}{1+|z|}$ $f(z) = \frac{1}{1 + e^{-z}}$

$Y=1$

$P(Y=1|z) = \frac{1}{1 + e^{-z}}$ $Y=1$ $m=1$

\begin{aligned} J (z) & = - \log (P (Y = 1 | z)) \\ = - \log (\frac{1}{1 + e^{- z}}) \\ = - \log (\frac{e^{z}}{1 + e^{z}}) \\ = - z + \log (1 + e^{z}) \end{aligned}

$\begin{align} J(z) &= -\log(P(Y=1|z)) \\ &= -\log(\frac{1}{1 + e^{-z}}) \\ &= -\log(\frac{e^z}{1+e^z}) \\ &= -z + \log(1 + e^z) \end{align}$

$-z$

$z$ $Y=1$ $\log(1 + e^z)$ $z$ $z$ $-z$
$z$ $|z|$ $Y=1$ $\log(1 + e^z)$ $0$ $z$ $-z$ $z$ $-1$ $z$ Es findet keine Sättigung statt, die zu verschwindenden Verläufen führen würde.

$Y=0$

$Y=1$ $Y=0$

$J(z)$ $Y=1$

$Y=0$

Alternativen

$\frac{z}{1+|z|}$ $[0,1]$ $P(Y=1|z) = 0.5 + 0.5 \frac{z}{1+|z|}$

$Y=1$

$J(z) = - \log (0.5 + 0.5 \frac{z}{1+|z|})$

was so aussieht:

$z \rightarrow - \infty$

— Kilian Batzner
quelle

Was meinst du, wenn du schreibst "wenn das Modell falsch ist"?

— Gabriel Romon

(x_{i}, y_{i})

$(x_i, y_i)$

z = 5

$z = 5$

y_{i} = 0

$y_i = 0$

6

Da in der ursprünglichen Frage das Problem des abklingenden Gradienten erwähnt wurde, möchte ich nur hinzufügen, dass für Zwischenebenen (bei denen Sie Aktivierungen nicht als Klassenwahrscheinlichkeiten oder Regressionsausgaben interpretieren müssen) andere Nichtlinearitäten häufig Sigmoidfunktionen vorgezogen werden. Die bekanntesten sind Gleichrichterfunktionen (wie bei ReLUs ), die über den positiven Bereich linear und über den negativen Bereich null sind. Einer ihrer Vorteile besteht darin, dass sie dem Problem des abklingenden Gradienten weniger ausgesetzt sind, da die Ableitung über den positiven Bereich konstant ist. ReLUs sind so populär geworden, dass Sigmoide wahrscheinlich nicht mehr als De-facto-Standard bezeichnet werden können.

Glorot et al. (2011) . Neuronale Netze mit tiefem Gleichrichter

— user20160
quelle

2

Ja. Ich denke, der Grund, warum die Logistikfunktion so beliebt war, war ihr Import aus der Statistik. Relu ist heutzutage in vielen Bereichen am beliebtesten.

— Ricardo Cruz

Warum Sigmoid-Funktion anstelle von irgendetwas anderem?

BEARBEITEN

Motivation

Warum die logistische Sigmoidfunktion?

Y=1Y=1Y=1

Y=0Y=0Y=0

Alternativen

$Y=1$

$Y=0$