Was ist eine LSTM-LM-Formulierung?


8

Ich lese diesen Artikel "Sequence to Sequence Learning mit neuronalen Netzen" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

Unter "2. Das Modell" steht:

Das LSTM berechnet diese bedingte Wahrscheinlichkeit, indem es zuerst die feste dimensionale Darstellung v der Eingabesequenz (x1, ..., xT) erhält, die durch den letzten verborgenen Zustand des LSTM gegeben ist, und dann die Wahrscheinlichkeit von y1 ,. . . , yT 'mit einer Standard- LSTM-LM- Formulierung, deren anfänglicher verborgener Zustand auf die Darstellung v von x1 ,. . . , xT:

Ich weiß, was ein LSTM ist, aber was ist ein LSTM-LM? Ich habe versucht, es zu googeln, kann aber keine guten Hinweise finden.


Aber dieser Satz ist mir immer noch rätselhaft. wenn ich es in eine Gleichung setze, wenn make ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) mit c dem letzten versteckten Zustand von der Encoder. dann repräsentiert der erste verborgene Zustand die vom Codierer bereitgestellten Informationen, während die nächsten die Wahrscheinlichkeitsverteilung der Elemente der Zielsequenz darstellen: etwas radikal anderes. Auch die Initialisierung des Zellzustandszustands ist nicht angegeben, und die Abbildung 1 lässt vermuten, dass das LSTM
Charles Englebert

Antworten:


10

Die Definition eines Sprachmodells (LM) ist eine Wahrscheinlichkeitsverteilung über Wortfolgen.

Die einfache Darstellung eines LM sagt das nächste Wort unter Berücksichtigung der vorherigen Wörter voraus.

Zum Beispiel, wenn ich ein Sprachmodell und ein oder mehrere Anfangswörter habe:

  • Ich setze mein erstes Wort auf My
  • Mein Modell sagt voraus, dass es eine hohe Wahrscheinlichkeit gibt, dass danach nameerscheint My.
  • Durch Setzen der Anfangswörter auf My namesagt mein Modell voraus, dass eine hohe Wahrscheinlichkeit danach isauftritt My name.
  • Also ist es wie: My-> My name-> My name is-> My name is Tomund so weiter.

Sie können an die automatische Vervollständigung auf Ihrer Smartphone-Tastatur denken. In der Tat ist LM das Herzstück der Autovervollständigung.

Daher verwendet LSTM-LM einfach ein LSTM (und eine Softmax-Funktion), um das nächste Wort anhand Ihrer vorherigen Wörter vorherzusagen.

Das Sprachmodell ist übrigens nicht auf LSTM, andere RNNs (GRU) oder andere strukturierte Modelle beschränkt. Tatsächlich können Sie auch Feedforward-Netzwerke mit Kontext- / Schiebe- / Rollfenster verwenden, um das nächste Wort anhand Ihrer Anfangswörter vorherzusagen.


Ändert dies in irgendeiner Weise die Formulierung des LSTM selbst?
Taevanbat Mongol

Oder ändert sich dadurch die Art und Weise, wie die LSTMs miteinander verbunden sind?
Taevanbat Mongol

1
IMHO bedeutet es vielleicht ein LSTM, das auf LM (Language Modeling) abgestimmt ist. Ich lese das gleiche Papier und das ist mein Verständnis
Ali

@ TaevanbatMongol nein, es ändert nichts an der LSTM-Formulierung. Sie benötigen nur eine Softmax-Funktion (oder etwas anderes), um die Wahrscheinlichkeit von Wörtern aus der LSTM-Ausgabe zu generieren
Rilut

Wahrscheinlichkeit von Wörtern bedeutet, wenn Sie die Wahrscheinlichkeit / Punktzahl der Ausgabe eines Zeitschritts summieren, entspricht dies 1
Rilut

1

In diesem Zusammenhang bedeutet dies meiner Meinung nach, dass Sie die Ausgabedarstellung verwenden und eine zusätzliche Softmax-Ebene lernen, die den Token in Ihrem Sprachmodell entspricht (in diesem Fall Buchstaben).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.