Übersicht über Verstärkungslernalgorithmen

Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden.

Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des Reinforcement-Lernens, aber es gibt keinen Hinweis auf verschiedene Algorithmen, die diese Methoden implementieren.

Aber vielleicht verwechsle ich allgemeine Ansätze und Algorithmen und im Grunde gibt es in diesem Bereich keine wirkliche Klassifizierung, wie in anderen Bereichen des maschinellen Lernens. Kann mir vielleicht jemand eine kurze Einführung geben oder nur eine Referenz, wo ich anfangen könnte, die verschiedenen Ansätze, die Unterschiede zwischen ihnen und Beispielalgorithmen, die diese Ansätze implementieren, zu lesen?

reinforcement-learning q-learning

— Griechenland57
quelle

Verwandte: Ressourcen, um mit tiefem Lernen zu beginnen

— Franck Dernoncourt

Hier gibt es ein gutes Umfragepapier .

Als kurze Zusammenfassung, in zusätzlich zu Q-Learning - Methoden gibt es auch eine Klasse von richtlinienbasierten Verfahren, bei denen anstelle der Q - Funktion des Lernens, Sie direkt die beste Politik lernen zu verwenden. $\pi$

Zu diesen Methoden gehört der beliebte REINFORCE-Algorithmus, ein Algorithmus für Richtliniengradienten. TRPO und GAE sind ähnliche Algorithmen für Richtliniengradienten.

Es gibt viele andere Varianten von Politikverläufen, die im Rahmen von Akteuren und Kritikern mit Q-Learning kombiniert werden können. Der A3C-Algorithmus - asynchroner Vorteil Schauspieler-Kritiker - ist ein solcher Schauspieler-Kritiker-Algorithmus und eine sehr starke Basis für das Lernen der Verstärkung.

Sie können auch nach der besten Richtlinie suchen, indem Sie die Ausgaben eines optimalen Steuerungsalgorithmus nachahmen. Dies wird als geführte Richtliniensuche bezeichnet. $\pi$

Neben Q-Learning- und Policy-Gradienten, die beide in modellfreien Einstellungen angewendet werden (keiner der Algorithmen verwaltet ein Modell der Welt), gibt es auch modellbasierte Methoden, die den Zustand der Welt abschätzen. Diese Modelle sind wertvoll, weil sie wesentlich probeneffizienter sein können.

Modellbasierte Algorithmen sind bei Richtlinienverläufen oder Q-Learning nicht exklusiv. Ein üblicher Ansatz besteht darin, eine Zustandsschätzung durchzuführen / ein Dynamikmodell zu lernen und dann eine Richtlinie über dem geschätzten Zustand zu trainieren.

Für eine Klassifizierung wäre also eine Aufschlüsselung

Q- oder V-Funktionslernen
Richtlinienbasierte Methoden
Modellbasiert

Richtlinienbasierte Methoden können weiter unterteilt werden in

Richtlinienverläufe
Schauspieler Kritiker
Richtliniensuche

— Shimao
quelle