Struktur des wiederkehrenden neuronalen Netzes (LSTM, GRU)


Antworten:


8

httxtht- -1

ht


htctxt

6

In Ihrem Bild ist A eine einzelne verborgene Ebene mit einem einzelnen verborgenen Neuron. Von links nach rechts ist die Zeitachse, und unten erhalten Sie jedes Mal eine Eingabe. Oben könnte das Netzwerk durch Hinzufügen von Schichten weiter ausgebaut werden.

Wenn Sie dieses Netzwerk rechtzeitig entfalten würden, wie es in Ihrem Bild visuell dargestellt ist (von links nach rechts wird die Zeitachse entfaltet), würden Sie ein Feedforward-Netzwerk mit T (Gesamtanzahl der Zeitschritte) versteckten Schichten erhalten, die jeweils a enthalten einzelner Knoten (Neuron) wie im mittleren A-Block gezeichnet.

Hoffe das beantwortet deine Frage.


3

Ich möchte dieses einfache Diagramm in einem relativ komplizierten Kontext erklären: Aufmerksamkeitsmechanismus im Decoder des seq2seq-Modells.

h0hk- -1xich. Ich illustriere Ihr Problem damit, dass alle Zustände des Zeitschritts für den Aufmerksamkeitsmechanismus gespeichert werden und nicht nur verworfen werden, um den letzten zu erhalten. Es ist nur eine neuronale Schicht und wird als Schicht betrachtet (mehrere Schichten können gestapelt werden, um beispielsweise in einigen seq2seq-Modellen einen bidirektionalen Encoder zu bilden, um abstraktere Informationen in den höheren Schichten zu extrahieren).

Anschließend wird der Satz (wobei die L Wörter und jedes als Vektor der Form dargestellt werden: Embedding_Dimention * 1) in eine Liste von L Tensoren (jeweils die Form: num_hidden / num_units * 1) codiert . Und der Zustand, der an den Decoder vorbei ist, ist nur der letzte Vektor als Satzeinbettung derselben Form für jedes Element in der Liste.

Geben Sie hier die Bildbeschreibung ein
Bildquelle: Aufmerksamkeitsmechanismus

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.