Was ist wiederkehrendes Verstärkungslernen?


20

Ich bin kürzlich auf das Wort "Recurrent Reinforcement Learning" gestoßen. Ich verstehe, was "Recurrent Neural Network" ist und was "Reinforcement Learning" ist, konnte aber nicht viele Informationen darüber finden, was "Recurrent Reinforcement Learning" ist.

Kann mir jemand erklären, was ein "Recurrent Reinforcement Learning" ist und was der Unterschied zwischen "Recurrent Reinforcement Learning" und normalem "Reinforcement Learning" wie dem Q-Learning-Algorithmus ist.

Antworten:


15

Was ist ein "wiederkehrendes Bestärkungslernen"?

Recurrent Enforcement Learning ( RRL ) wurde 1996 zum ersten Mal für das Training von Handelssystemen für neuronale Netze eingeführt. "Recurrent" bedeutet, dass die vorherige Ausgabe als Teil der Eingabe in das Modell eingespeist wird. Es wurde bald auf den Handel in einem FX-Markt ausgeweitet.

Die RRL- Technik hat sich als erfolgreiche Technik des maschinellen Lernens zum Aufbau von Finanzhandelssystemen erwiesen.

Was ist der Unterschied zwischen "wiederkehrendem Bestärkungslernen" und normalem "Bestärkungslernen" (wie Q-Learning-Algorithmus)?

Der RRL- Ansatz unterscheidet sich deutlich von dynamischen Programmier- und Verstärkungsalgorithmen wie TD-Learning und Q-Learning , die versuchen, eine Wertefunktion für das Steuerproblem abzuschätzen .

Das RRL- Framework ermöglicht die einfache und elegante Darstellung von Problemen, vermeidet Bellmans Fluch der Dimensionalität und bietet überzeugende Effizienzvorteile:

RRL erzeugt auf natürliche Weise real bewertete Aktionen (Portfoliogewichte), ohne auf die Diskretisierungsmethode beim Q-Learning zurückzugreifen .

RRL hat eine stabilere Leistung im Vergleich zum Q-Learning, wenn es verrauschten Datensätzen ausgesetzt ist. Der Q-Learning- Algorithmus ist (möglicherweise) aufgrund der rekursiven Eigenschaft der dynamischen Optimierung empfindlicher für die Auswahl der Wertfunktion, während der RRL- Algorithmus flexibler bei der Auswahl der Zielfunktion und der Einsparung von Rechenzeit ist.

U()

Hier finden Sie eine Matlab-Implementierung des RRL-Algorithmus.


Verweise

Reinforcement Learning für den Handel

Reinforcement Learning für Handelssysteme und Portfolios

Devisenhandel durch wiederkehrendes Verstärkungstraining

Aktienhandel mit wiederkehrendem Reinforcement Learning (RRL)

Algorithm Trading mit Q-Learning und Recurrent Reinforcement Learning

ENTDECKEN VON ALGORITHMEN FÜR DEN AUTOMATISIERTEN FX-HANDEL - BAU EINES HYBRIDMODELLS


@AntonDanilov Ich bin mir nicht sicher, ob Ihnen das bewusst ist. Der Typ, der auf diese Idee gekommen ist (Ihr erster Verweis, J Moody), hat mit diesem Algo einen Fonds betrieben - und seine Leistung war alles andere als spektakulär.
HoraceT

Gut zu wissen, aber wie es Changelemy antwortet
Anton Danilov

2

Der Unterschied von (Deep) Recurrent RL besteht darin, dass die Funktion, die die Agentenbeobachtungen seiner Ausgabeaktion zuordnet, ein Recurrent Neural Network ist.

Ein wiederkehrendes neuronales Netzwerk ist eine Art neuronales Netzwerk, das jede Beobachtung nacheinander auf die gleiche Weise für jeden Zeitschritt verarbeitet.

Originalarbeit: Deep Recurrent Q-Learning für partiell beobachtbare MDPs

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.