In der Literatur zum maschinellen Lernen wird häufig die Softmax-Funktion verwendet, um eine Wahrscheinlichkeitsverteilung darzustellen. Gibt es einen Grund dafür? Warum wird keine andere Funktion verwendet?
In der Literatur zum maschinellen Lernen wird häufig die Softmax-Funktion verwendet, um eine Wahrscheinlichkeitsverteilung darzustellen. Gibt es einen Grund dafür? Warum wird keine andere Funktion verwendet?
Antworten:
Aus Sicht der Optimierung hat es einige schöne Eigenschaften in Bezug auf die Differenzierbarkeit. Für viele Probleme des maschinellen Lernens eignet es sich gut für die 1-of-N-Klassifizierung.
Aus einer Deep-Learning-Perspektive: Man könnte auch argumentieren, dass theoretisch die Verwendung eines Deep-Netzwerks mit einem Softmax-Klassifikator oben jede Wahrscheinlichkeitsfunktion der N-Klasse über den Merkmalsraum darstellen kann, da MLPs die Universal Approximation- Eigenschaft haben.
Softmax ist auch eine Verallgemeinerung der logistischen Sigmoidfunktion und trägt daher die Eigenschaften des Sigmoid wie die einfache Differenzierung und den Bereich 0-1. Die Ausgabe einer logistischen Sigmoidfunktion liegt ebenfalls zwischen 0 und 1 und ist daher natürlich eine geeignete Wahl zur Darstellung der Wahrscheinlichkeit. Sein Derivat wird auch in Bezug auf seine eigene Produktion exoriert. Wenn Ihre Funktion jedoch eine Vektorausgabe hat, müssen Sie die Softmax-Funktion verwenden, um die Wahrscheinlichkeitsverteilung über den Ausgabevektor zu erhalten. Es gibt einige andere Vorteile der Verwendung von Softmax, die Indie AI erwähnt hat, obwohl dies nicht unbedingt etwas mit der Universal Approximationstheorie zu tun hat, da Softmax keine Funktion ist, die nur für neuronale Netze verwendet wird.
Verweise