Was ist der Haken bei LSTM?

Ich erweitere mein Wissen über das Keras-Paket und habe mit einigen der verfügbaren Modelle gearbeitet. Ich habe ein NLP-Binärklassifizierungsproblem, das ich zu lösen versuche, und wende verschiedene Modelle an.

Nachdem ich mit einigen Ergebnissen gearbeitet und mehr und mehr über LSTM gelesen habe, scheint es, als ob dieser Ansatz allem anderen, was ich versucht habe, weit überlegen ist (über mehrere Datensätze hinweg). Ich denke immer wieder bei mir: "Warum / Wann würden Sie LSTM nicht verwenden?". Die Verwendung der zusätzlichen Gatter, die mit LSTM verbunden sind, ist für mich nach einigen Modellen, die unter abnehmenden Gefällen leiden, vollkommen sinnvoll.

Was ist der Haken bei LSTM? Wo machen sie das nicht so gut? Ich weiß, dass es keinen "One Size Fits All" -Algorithmus gibt, daher muss LSTM einen Nachteil haben.

— I_Play_With_Data
quelle

Probieren Sie GRU aus, sie sind wie LSTM, benötigen aber weniger Speicher und trainieren schneller.

— Vivek Khetan

Sie haben Recht, dass LSTMs bei einigen Problemen sehr gut funktionieren, aber einige der Nachteile sind:

LSTMs brauchen länger zum Trainieren
LSTMs benötigen mehr Speicher zum Trainieren
LSTMs sind leicht zu überrüsten
Dropout ist in LSTMs viel schwieriger zu implementieren
LSTMs reagieren empfindlich auf verschiedene zufällige Gewichtsinitialisierungen

Diese sind im Vergleich zu einem einfacheren Modell wie zum Beispiel einem 1D-Conv-Netz.

Die ersten drei Punkte sind, weil LSTMs mehr Parameter haben.

— Imran
quelle

Einverstanden, und ich denke, Überanpassung (auch bekannt als schlechte Verallgemeinerung) ist vielleicht das größte Risiko. Stellen Sie sicher, dass Sie eine gute Strategie für die Modellvalidierung haben.

— Tom