Hier gibt es ein gutes Umfragepapier .
Als kurze Zusammenfassung, in zusätzlich zu Q-Learning - Methoden gibt es auch eine Klasse von richtlinienbasierten Verfahren, bei denen anstelle der Q - Funktion des Lernens, Sie direkt die beste Politik lernen zu verwenden.π
Zu diesen Methoden gehört der beliebte REINFORCE-Algorithmus, ein Algorithmus für Richtliniengradienten. TRPO und GAE sind ähnliche Algorithmen für Richtliniengradienten.
Es gibt viele andere Varianten von Politikverläufen, die im Rahmen von Akteuren und Kritikern mit Q-Learning kombiniert werden können. Der A3C-Algorithmus - asynchroner Vorteil Schauspieler-Kritiker - ist ein solcher Schauspieler-Kritiker-Algorithmus und eine sehr starke Basis für das Lernen der Verstärkung.
Sie können auch nach der besten Richtlinie suchen, indem Sie die Ausgaben eines optimalen Steuerungsalgorithmus nachahmen. Dies wird als geführte Richtliniensuche bezeichnet.π
Neben Q-Learning- und Policy-Gradienten, die beide in modellfreien Einstellungen angewendet werden (keiner der Algorithmen verwaltet ein Modell der Welt), gibt es auch modellbasierte Methoden, die den Zustand der Welt abschätzen. Diese Modelle sind wertvoll, weil sie wesentlich probeneffizienter sein können.
Modellbasierte Algorithmen sind bei Richtlinienverläufen oder Q-Learning nicht exklusiv. Ein üblicher Ansatz besteht darin, eine Zustandsschätzung durchzuführen / ein Dynamikmodell zu lernen und dann eine Richtlinie über dem geschätzten Zustand zu trainieren.
Für eine Klassifizierung wäre also eine Aufschlüsselung
- Q- oder V-Funktionslernen
- Richtlinienbasierte Methoden
- Modellbasiert
Richtlinienbasierte Methoden können weiter unterteilt werden in
- Richtlinienverläufe
- Schauspieler Kritiker
- Richtliniensuche