Wie tief ist der Zusammenhang zwischen der Softmax-Funktion in ML und der Boltzmann-Verteilung in der Thermodynamik?


12

Die Softmax-Funktion, die üblicherweise in neuronalen Netzen verwendet wird, um reelle Zahlen in Wahrscheinlichkeiten umzuwandeln, ist dieselbe Funktion wie die Boltzmann-Verteilung, die Wahrscheinlichkeitsverteilung über Energien für ein Ensemble von Partikeln im thermischen Gleichgewicht bei einer gegebenen Temperatur T in der Thermodynamik.

Ich kann einige klare heuristische Gründe erkennen, warum dies praktisch ist:

  • Unabhängig davon, ob die Eingabewerte negativ sind, gibt softmax positive Werte aus, die sich zu eins summieren.
  • Es ist immer differenzierbar, was für die Backpropagation praktisch ist.
  • Es hat einen 'Temperatur'-Parameter, der steuert, wie mild das Netzwerk gegenüber kleinen Werten sein soll (wenn T sehr groß ist, sind alle Ergebnisse gleich wahrscheinlich, wenn sehr klein ist, wird nur der Wert mit der größten Eingabe ausgewählt).

Wird die Boltzmann-Funktion aus praktischen Gründen nur als Softmax verwendet oder besteht eine tiefere Verbindung zur Thermodynamik / statistischen Physik?


1
Ich verstehe nicht, warum dies enge Stimmen anzieht - es ist eine durchaus vernünftige Frage.
Matt Krause

2
+1 bis @ MattKrause - NNs sind sicherlich ein Thema, ebenso wie - glaube ich - statistische Physik.
Sean Easter

Ich kann sehen, dass die Frage offener ist als die meisten SO-Fragen, in dem Sinne, dass ich nicht nach einer Lösung für ein Problem suche, sondern nach allgemeinerem Wissen. Ich könnte mir jedoch keinen besseren Ort vorstellen, um es zu fragen, oder eine spezifischere Art, es zu fragen.
Ahura

Antworten:


3

Meines Wissens gibt es keinen tieferen Grund, abgesehen von der Tatsache, dass viele der Leute, die ANNs über das Perceptron-Stadium hinaus nahmen, Physiker waren.

Abgesehen von den genannten Vorteilen bietet diese spezielle Auswahl weitere Vorteile. Wie bereits erwähnt, verfügt es über einen einzelnen Parameter, der das Ausgabeverhalten bestimmt. Was wiederum optimiert oder selbst abgestimmt werden kann.

Kurz gesagt, es ist eine sehr praktische und bekannte Funktion, die eine Art "Regularisierung" erreicht, in dem Sinne, dass selbst die größten Eingabewerte eingeschränkt sind.

Natürlich gibt es viele andere mögliche Funktionen, die die gleichen Anforderungen erfüllen, aber sie sind in der Welt der Physik weniger bekannt. Und meistens sind sie schwerer zu bedienen.


2

Die Softmax-Funktion wird auch bei der Modellierung diskreter Auswahl verwendet. Sie entspricht dem Logit-Modell, wenn Sie davon ausgehen, dass jeder Klasse eine Dienstprogrammfunktion zugeordnet ist und die Dienstprogrammfunktion der Ausgabe des neuronalen Netzwerks + einem Fehlerterm nach dem Gumbel entspricht Verteilung entspricht die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse der Softmax-Funktion mit dem neuronalen Netzwerk als Eingabe. Siehe: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

Es gibt Alternativen zum Logit-Modell, z. B. das Probit-Modell, bei dem angenommen wird, dass der Fehlerterm der Standardnormalverteilung folgt, was eine bessere Annahme ist. Die Wahrscheinlichkeit wäre jedoch unlösbar und rechenintensiv zu lösen, weshalb sie im neuronalen Netzwerk nicht häufig verwendet wird

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.