Die Kombination von ReLU, der hyperparametrisierten 1- Leck-Variante und der Variante mit dynamischer Parametrisierung während des Lernens verwirrt zwei verschiedene Dinge:
- Der Vergleich zwischen ReLU und der undichten Variante hängt eng damit zusammen, ob im vorliegenden ML-Fall eine Sättigung vermieden werden muss. Die Sättigung ist der Signalverlust entweder auf den Gradienten 2 Null oder die Dominanz des chaotischen Rauschens, das sich aus dem digitalen ergibt Rundung 3 .
- Der Vergleich zwischen trainingsdynamischer Aktivierung ( in der Literatur als parametrisch bezeichnet ) und trainingsstatischer Aktivierung muss darauf beruhen, ob die nichtlinearen oder nicht glatten Aktivierungseigenschaften einen Wert haben, der sich auf die Konvergenzrate bezieht 4 .
Der Grund, warum ReLU niemals parametrisch ist, ist, dass es überflüssig wäre, dies so zu machen. Im negativen Bereich ist es die Konstante Null. Im nicht negativen Bereich ist seine Ableitung konstant. Da der Aktivierungseingabevektor bereits mit einem Vektormatrixprodukt abgeschwächt ist (wobei die Matrix, der Würfel oder der Hyperwürfel die Abschwächungsparameter enthält), besteht kein nützlicher Zweck darin, einen Parameter hinzuzufügen, um die konstante Ableitung für die nicht negative Domäne zu variieren .
Wenn die Aktivierung eine Krümmung aufweist, ist es nicht mehr wahr, dass alle Aktivierungskoeffizienten als Parameter redundant sind. Ihre Werte können den Trainingsprozess und damit die Geschwindigkeit und Zuverlässigkeit der Konvergenz erheblich verändern.
Bei im Wesentlichen tiefen Netzwerken tritt die Redundanz wieder auf, und es gibt Hinweise darauf, sowohl in der Theorie als auch in der Praxis in der Literatur.
- In algebraischer Hinsicht nähert sich die Disparität zwischen ReLU und daraus abgeleiteten parametrisch dynamischen Aktivierungen Null, wenn sich die Tiefe (in Anzahl der Schichten) der Unendlichkeit nähert.
- In beschreibenden Begriffen kann ReLU Funktionen mit der Krümmung 5 genau approximieren, wenn eine ausreichende Anzahl von Schichten dafür gegeben ist.
Aus diesem Grund wird die ELU-Variante, die zur Abwendung der oben genannten Sättigungsprobleme für flachere Netze vorteilhaft ist, nicht für tiefere Netze verwendet.
Man muss also zwei Dinge entscheiden.
- Ob eine parametrische Aktivierung hilfreich ist, basiert häufig auf Experimenten mit mehreren Proben aus einer statistischen Population. Es ist jedoch überhaupt nicht erforderlich, damit zu experimentieren, wenn die Schichttiefe hoch ist.
- Ob die undichte Variante von Wert ist, hat viel mit den numerischen Bereichen zu tun, die während der Rückausbreitung auftreten. Wenn der Gradient während der Rückausbreitung zu irgendeinem Zeitpunkt während des Trainings verschwindend klein wird, kann ein konstanter Teil der Aktivierungskurve problematisch sein. In einem solchen Fall kann eine der glatten Funktionen oder die undichte RelU mit ihren zwei Steigungen ungleich Null eine adäquate Lösung liefern.
Zusammenfassend ist die Wahl niemals eine Wahl der Bequemlichkeit.
Fußnoten
[1] Hyperparameter sind Parameter, die die Signalisierung durch die Schicht beeinflussen und nicht Teil der Dämpfung von Eingaben für diese Schicht sind. Die Dämpfungsgewichte sind Parameter. Jede andere Parametrisierung befindet sich im Satz von Hyperparametern. Dies kann Lernrate, Dämpfung hoher Frequenzen bei der Rückausbreitung und eine Vielzahl anderer Lernsteuerungen umfassen, die für die gesamte Schicht, wenn nicht das gesamte Netzwerk eingestellt sind.
[2] Wenn der Gradient Null ist, kann es keine intelligente Einstellung der Parameter geben, da die Richtung der Einstellung unbekannt ist und ihre Größe Null sein muss. Das Lernen hört auf.
[3] Wenn chaotisches Rauschen, das auftreten kann, wenn die CPU extrem kleine Werte auf ihre nächste digitale Darstellung rundet, das Korrektursignal dominiert, das sich zurück zu den Schichten ausbreiten soll, wird die Korrektur zu Unsinn und das Lernen stoppt.
[4] Die Konvergenzrate ist ein Maß für die Geschwindigkeit (entweder relativ zu Mikrosekunden oder relativ zum Iterationsindex des Algorithmus), bei der sich das Lernergebnis (Systemverhalten) dem nähert, was als gut genug angesehen wird. Dies ist normalerweise eine bestimmte Nähe zu einigen formalen Akzeptanzkriterien für die Konvergenz (Lernen).
[5] Funktionen mit Krümmung sind solche, die nicht als gerade oder flach dargestellt werden. Eine Parabel hat eine Krümmung. Eine gerade Linie nicht. Die Oberfläche eines Eies ist gekrümmt. Ein perfektes flaches Flugzeug nicht. Wenn eines der Elemente des Hessischen der Funktion ungleich Null ist, hat die Funktion mathematisch eine Krümmung.