Die Softmax-Funktion, die üblicherweise in neuronalen Netzen verwendet wird, um reelle Zahlen in Wahrscheinlichkeiten umzuwandeln, ist dieselbe Funktion wie die Boltzmann-Verteilung, die Wahrscheinlichkeitsverteilung über Energien für ein Ensemble von Partikeln im thermischen Gleichgewicht bei einer gegebenen Temperatur T in der Thermodynamik.
Ich kann einige klare heuristische Gründe erkennen, warum dies praktisch ist:
- Unabhängig davon, ob die Eingabewerte negativ sind, gibt softmax positive Werte aus, die sich zu eins summieren.
- Es ist immer differenzierbar, was für die Backpropagation praktisch ist.
- Es hat einen 'Temperatur'-Parameter, der steuert, wie mild das Netzwerk gegenüber kleinen Werten sein soll (wenn T sehr groß ist, sind alle Ergebnisse gleich wahrscheinlich, wenn sehr klein ist, wird nur der Wert mit der größten Eingabe ausgewählt).
Wird die Boltzmann-Funktion aus praktischen Gründen nur als Softmax verwendet oder besteht eine tiefere Verbindung zur Thermodynamik / statistischen Physik?