Ich habe kürzlich etwas über Q-Learning gelernt, eine verstärkte Lerntechnik, die den erwarteten Wert einer Aktion in einem Zustand direkt abschätzt.
Ich frage mich, ob es Techniken gibt, um "dynamisches Lernen" durchzuführen, um die Dynamik eines Systems abzuschätzen. Ein "Dynamic Learning" -Agent kann Aktionen auswählen, die ihm beim Schätzen der Zustandsübergangsfunktion oder beim Schätzen von Parametern einer bekannten Übergangsfunktion helfen.
Zum Beispiel würde ein "Dynamic Learning" -Agent im Wagenpolsystem eine Funktion entdecken, die sich den Bewegungsgleichungen des Wagenpols annähert. Oder der Agent kennt diese Gleichungen, aber nicht die Parameter des Systems, wie das Trägheitsmoment des Pendels oder die Masse des Wagens.
Welche Techniken gibt es für "dynamisches Lernen"?