Einer der Hyperparameter für LSTM-Netzwerke ist die Temperatur. Was ist es?

machine-learning neural-networks

— Justin Shenk
quelle

Die Temperatur ist ein Hyperparameter von LSTMs (und neuronalen Netzen im Allgemeinen), die zur Steuerung der Zufälligkeit von Vorhersagen durch Skalieren der Protokolle vor der Anwendung von Softmax verwendet werden. Beispielsweise gibt die Temperatur in TensorFlows Magenta- Implementierung von LSTMs an, durch wie viel die Protokolle geteilt werden müssen, bevor der Softmax berechnet wird.

Wenn die Temperatur 1 ist, berechnen wir den Softmax direkt auf den Logs (die nicht skalierte Ausgabe früherer Layer), und unter Verwendung einer Temperatur von 0,6 berechnet das Modell den Softmax auf , was zu einem größeren Wert führt. Darstellende softmax auf größeren Werten macht die LSTM zuversichtliche (weniger Input benötigt , um die Ausgangsschicht zu aktivieren) , sondern auch konservativer in ihren Proben (es ist weniger wahrscheinlich Probe unwahrscheinlich Kandidaten). Die Verwendung einer höheren Temperatur führt zu einer weicheren Wahrscheinlichkeitsverteilung über die Klassen und führt dazu, dass die RNN durch Proben leichter angeregt wird, was zu mehr Vielfalt und auch zu mehr Fehlern führt . $\frac{logits}{0.6}$

Neuronale Netze erzeugen Klassenwahrscheinlichkeiten mit dem logit-Vektor wobei indem sie die Softmax-Funktion ausführen, um den Wahrscheinlichkeitsvektor durch Vergleichen von mit den anderen Logs. $\mathbf{z}$ $\mathbf{z} =$ $(z_1,\ldots,z_n)$ $\mathbf{q} = (q_1,\ldots,q_n)$ $z_i$

$q_i = \frac{\exp{(z_i/T)}}{\sum_j\exp{(z_j/T)}}\tag{1}$

wobei der Temperaturparameter ist, normalerweise auf 1 eingestellt. $T$

Die Softmax-Funktion normalisiert die Kandidaten bei jeder Iteration des Netzwerks basierend auf ihren Exponentialwerten, indem sichergestellt wird, dass die Netzwerkausgaben bei jedem Zeitschritt alle zwischen Null und Eins liegen.

Die Temperatur erhöht daher die Empfindlichkeit gegenüber Kandidaten mit geringer Wahrscheinlichkeit. In LSTMs kann der Kandidat oder die Stichprobe ein Buchstabe, ein Wort oder eine Musiknote sein, zum Beispiel:

Bei hohen Temperaturen ( ) haben alle [Samples] fast die gleiche Wahrscheinlichkeit und je niedriger die Temperatur, desto mehr erwartete Belohnungen beeinflussen die Wahrscheinlichkeit. Bei einer niedrigen Temperatur ( ) beträgt die Wahrscheinlichkeit für die [Stichprobe] mit der höchsten erwarteten Belohnung 1. $\tau \to \infty$ $\tau \to 0^{+}$

- aus Wikipedia-Artikel zur Softmax-Funktion

Referenz

Hinton, Geoffrey, Oriol Vinyals und Jeff Dean. "Das Wissen in einem neuronalen Netzwerk destillieren." arXiv-Vorabdruck arXiv: 1503.02531 (2015). arXiv

— Justin Shenk
quelle

Es ist eine Anspielung auf die Boltzmann-Verteilung (oder Gibbs-Verteilung) - eine Wahrscheinlichkeitsverteilung, die in der statistischen Mechanik verwendet wird.

— mc2

Was ist die Temperatur in LSTM (und in neuronalen Netzen im Allgemeinen)?

Referenz