Ich modelliere 15000 Tweets für die Stimmungsvorhersage unter Verwendung eines einschichtigen LSTM mit 128 verborgenen Einheiten unter Verwendung einer word2vec-ähnlichen Darstellung mit 80 Dimensionen. Nach 1 Epoche erhalte ich eine Abstiegsgenauigkeit (38% bei Zufall = 20%). Mehr Training führt dazu, dass die Validierungsgenauigkeit abnimmt, wenn die Trainingsgenauigkeit zu steigen beginnt - ein deutliches Zeichen für eine Überanpassung.
Ich überlege mir daher Möglichkeiten zur Regularisierung. Ich würde es vorziehen, die Anzahl der versteckten Einheiten nicht zu reduzieren (128 scheint schon ein bisschen niedrig zu sein). Ich verwende derzeit mit einer Wahrscheinlichkeit von 50% Dropout, aber dies könnte möglicherweise erhöht werden. Das Optimierungsprogramm ist Adam mit den Standardparametern für Keras ( http://keras.io/optimizers/#adam ).
Was sind einige effektive Möglichkeiten, um die Überanpassung für dieses Modell in meinem Datensatz zu reduzieren?