Was passiert, wenn ich Aktivierungsfunktionen mische?

Es gibt verschiedene Aktivierungsfunktionen wie ReLU, Sigmoid oder . Was passiert, wenn ich Aktivierungsfunktionen mische? $\tanh$

Ich habe kürzlich festgestellt, dass Google die Swish-Aktivierungsfunktion (x * sigmoid) entwickelt hat. Kann durch Ändern der Aktivierungsfunktion die Genauigkeit bei kleinen neuronalen Netzwerkproblemen wie dem XOR-Problem erhöht werden?

— JSChang
quelle

Die allgemeine Antwort auf das Verhalten beim Kombinieren gemeinsamer Aktivierungsfunktionen lautet, dass die Gesetze der Analysis angewendet werden müssen, insbesondere die Differentialrechnung, die Ergebnisse durch Experimente erhalten werden müssen, um sicher zu sein, dass die Eigenschaften der zusammengesetzten Funktion vorliegen, und dass die zusätzliche Komplexität wahrscheinlich ist Rechenzeit erhöhen. Die Ausnahme von einer solchen Erhöhung wird sein, wenn der Rechenaufwand der Kombination im Vergleich zu den Konvergenzvorteilen, die die Kombination bietet, gering ist.

Dies scheint für Swish zu gelten, den Namen der Aktivierungsfunktion, die als definiert ist

f (x) = x S (β x),

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

$f()$ $\mathbb{S}$ $\beta$

Es scheint nicht von Google entwickelt zu sein. Das ursprünglich anonym eingereichte Papier (zur doppelblinden Überprüfung als ICLR 2018-Papier), Suche nach Aktivierungsfunktionen , wurde um 2017 von Prajit Ramachandran, Barret Zoph und Quoc V. Le verfasst. Dies ist ihre Behauptung.

Unsere Experimente zeigen, dass die am besten entdeckte Aktivierungsfunktion ... Swish, ... bei tieferen Modellen in einer Reihe herausfordernder Datensätze tendenziell besser funktioniert als ReLU.

Jede Änderung der Aktivierungsfunktion für eine Schicht wirkt sich, außer im astronomisch seltenen Fall, auf die Genauigkeit, Zuverlässigkeit und Recheneffizienz aus. Ob die Änderung signifikant ist, kann nicht verallgemeinert werden. Aus diesem Grund werden neue Ideen anhand von Datensätzen getestet, die traditionell zur Beurteilung des Nutzens verwendet werden ¹ .

Das Kombinieren von Aktivierungsfunktionen zu neuen Aktivierungsfunktionen ist nicht üblich. Zum Beispiel kombiniert AlexNet sie nicht. ² . Es ist jedoch sehr üblich, unterschiedliche Aktivierungsfunktionen in unterschiedlichen Schichten eines einzelnen, effektiven Netzwerkdesigns zu verwenden.

Fußnoten

[1] Ob diese Traditionen eine Tendenz hervorrufen, ist eine andere Frage. Diejenigen, die der Theorie der Anwendungsfallanalyse folgen, die vom schwedischen Informatiker Ivar Hjalmar Jacobson oder von 6 Sigma entwickelt wurde, würden sagen, dass diese Tests Unit-Tests sind, keine Funktionstests gegen reale Anwendungsfälle, und sie haben einen Sinn.

[2] Um etwaige Missverständnisse zu korrigieren, die sich aus einer anderen Antwort ergeben könnten, AlexNet, dem Namen, der dem in ImageNet Classification with Deep Convolutional Neural Networks (2012) von Alex Krizhevsky, Ilya Sutskever und Geoffrey E. Hinton von der University of In Toronto werden Aktivierungsfunktionen nicht kombiniert, um neue zu bilden. Sie schreiben das.

Die Ausgabe der letzten vollständig verbundenen Schicht wird einem 1000-Wege-Softmax zugeführt, der eine Verteilung über die 1000-Klassen-Labels erzeugt.

...

Die ReLU-Nichtlinearität wird auf den Ausgang jeder Faltungsschicht und vollständig verbundenen Schicht angewendet. Die internen Schichten sind reine ReLU und die Ausgangsschicht ist Softmax.

Es gibt auch Faltungskerne und Pooling-Ebenen in der von ihnen verwendeten Reihe von Ebenen des AlexNet-Ansatzes, und das Design wurde seit dem Gewinn des ImageNet-Wettbewerbs im Jahr 2012 allgemein verwendet. Andere Ansätze haben nachfolgende Wettbewerbe gewonnen.

— Douglas Daseeco
quelle