Ist es bei Verwendung einer Mehrschicht LSTM
mit Dropout ratsam, Dropout auf alle ausgeblendeten Ebenen sowie auf die Ausgabeebenen für dichte Ebenen zu setzen? In Hintons Artikel (der Dropout vorschlug) legte er Dropout nur auf die dichten Schichten, aber das lag daran, dass die verborgenen inneren Schichten faltungsmäßig waren.
Natürlich kann ich mein spezifisches Modell testen, aber ich habe mich gefragt, ob diesbezüglich ein Konsens besteht.