Ich bin ein CS-Student (aber ich weiß nicht viel über KI, habe keine Kurse besucht und definitiv nichts über NN bis vor kurzem), der im Begriff ist, ein Schulprojekt in KI zu machen, also wähle ich ein Thema aus Grammatikinduktion (der kontextfreien Sprache und möglicherweise einer Teilmenge der kontextsensitiven Sprache) unter Verwendung des verstärkenden Lernens in einem neuronalen Netzwerk. Ich habe angefangen, den vorherigen erfolgreichen Ansatz zu studieren, um zu sehen, ob sie optimiert werden können, und jetzt versuche ich, den Ansatz mithilfe von überwachtem Lernen mit Langzeitgedächtnis zu verstehen. Ich lese "Lernen zu vergessen: Kontinuierliche Vorhersage mit LSTM". Ich lese auch die Zeitung über Guckloch, aber es scheint noch komplizierter zu sein und ich versuche zuerst etwas Einfacheres. Ich denke, ich verstehe richtig, wie die Speicherzelle und die Netzwerktopologie funktionieren. Was ich momentan nicht verstehe, ist der Trainingsalgorithmus. Ich muss also einige Fragen stellen:
Wie genau werden unterschiedliche Eingaben unterschieden? Anscheinend wird das Netzwerk nicht nach jeder Eingabe zurückgesetzt, und es gibt kein spezielles Symbol, um andere Eingaben abzugrenzen. Empfängt das Netzwerk nur einen kontinuierlichen Strom von Zeichenfolgen ohne Anhaltspunkte dafür, wo die Eingabe endet und die nächste beginnt?
Was ist die Zeitverzögerung zwischen der Eingabe und der entsprechenden Zielausgabe? Sicherlich ist eine gewisse Zeitverzögerung erforderlich, und daher kann das Netzwerk niemals darauf trainiert werden, eine Zielausgabe von einer Eingabe zu erhalten, für deren Verarbeitung nicht genügend Zeit zur Verfügung steht. Wenn nicht die Reber-Grammatik verwendet wurde, sondern etwas Komplizierteres, bei dem möglicherweise viel mehr Informationen gespeichert und abgerufen werden müssen, kann der Zeitaufwand für den Zugriff auf die Informationen je nach Eingabe variieren, was wahrscheinlich nicht vorhergesagt werden kann während wir uns für die Zeitverzögerung für das Training entscheiden.
Gibt es eine intuitivere Erklärung des Trainingsalgorithmus? Ich finde es schwierig herauszufinden, was hinter all den komplizierten Formeln vor sich geht, und ich müsste es verstehen, weil ich es später in einen verstärkten Lernalgorithmus umwandeln muss.
Das Papier erwähnte auch nichts in Bezug auf verrauschte Trainingsdaten . Ich habe woanders gelesen, dass das Netzwerk sehr gut mit verrauschten Testdaten umgehen kann. Wissen Sie, ob LSTM mit Situationen umgehen kann, in denen die Trainingsdaten möglicherweise mit überflüssigen Informationen beschädigt werden?