Lerndynamik

Ich habe kürzlich etwas über Q-Learning gelernt, eine verstärkte Lerntechnik, die den erwarteten Wert einer Aktion in einem Zustand direkt abschätzt.

Ich frage mich, ob es Techniken gibt, um "dynamisches Lernen" durchzuführen, um die Dynamik eines Systems abzuschätzen. Ein "Dynamic Learning" -Agent kann Aktionen auswählen, die ihm beim Schätzen der Zustandsübergangsfunktion oder beim Schätzen von Parametern einer bekannten Übergangsfunktion helfen.

Zum Beispiel würde ein "Dynamic Learning" -Agent im Wagenpolsystem eine Funktion entdecken, die sich den Bewegungsgleichungen des Wagenpols annähert. Oder der Agent kennt diese Gleichungen, aber nicht die Parameter des Systems, wie das Trägheitsmoment des Pendels oder die Masse des Wagens.

Welche Techniken gibt es für "dynamisches Lernen"?

machine-learning physics

— Robz
quelle

Es gibt drei Probleme. Zunächst müssen Sie eine Modellklasse für die Dynamik auswählen. Zweitens müssen Sie ein Trainingsset erstellen, indem Sie den Agenten auf verschiedene Trajektorien führen, um den Zustandsraum zu erkunden. Drittens benötigen Sie eine Möglichkeit, ein bestimmtes Dynamikmodell aus diesem Trainingssatz zu lernen / abzuleiten. Es gibt verschiedene Möglichkeiten, jede dieser Aufgaben zu instanziieren.

In der Robotik wird häufig ein Markov-Entscheidungsprozess (MDP) für das Dynamikmodell verwendet. Dies ist eine bequeme Wahl, da es relativ Standardmethoden gibt, um einen MDP aus einem Trainingssatz zu lernen, und weil anhand eines MDP-Dynamikmodells gut untersucht ist, wie ein Controller für das System erstellt wird, der die Dynamik berücksichtigt. Eine andere Möglichkeit besteht darin, einen Markov-Entscheidungsprozess höherer Ordnung oder einen teilweise beobachtbaren Markov-Entscheidungsprozess zu verwenden, aber es kann viel unhandlicher sein, mit diesen zu arbeiten.

Es gibt viele Möglichkeiten, den Staatsraum zu erkunden. Kapitel 3.1 der Doktorarbeit von Pieter Abbeel bietet ab 2008 einen schönen Überblick.

Um einen MDP anhand eines Trainingssatzes abzuleiten / zu lernen, können Sie die Maximum-Likelihood-Schätzung verwenden. Anspruchsvollere Techniken sind ebenfalls möglich; Eine Übersicht finden Sie auch in Abbeels Doktorarbeit (Kapitel 3 und 4).

Allgemeiner siehe die Literatur zur Systemidentifikation aus dem Bereich der Steuerungstheorie.

— DW
quelle