Kann das Reinforcement-Lernen für die Vorhersage von Zeitreihen angewendet werden?


Antworten:


10

Ja, aber im Allgemeinen ist es kein gutes Werkzeug für die Aufgabe, es sei denn, es gibt signifikante Rückmeldungen zwischen Vorhersagen und dem laufenden Verhalten des Systems.

Um ein Problem des Verstärkungslernens (RL) zu konstruieren, bei dem es sich lohnt, einen RL-Vorhersage- oder Steuerungsalgorithmus zu verwenden, müssen Sie einige Komponenten identifizieren:

  • Eine Umgebung in einem von vielen Zuständen , die in einer Sequenz gemessen / beobachtet werden können.

  • Ein Agent , der den aktuellen Status beobachten und Aktionen in derselben Reihenfolge ausführen kann.

  • Die Entwicklung des Zustands in der Sequenz sollte von einer Kombination des aktuellen Zustands und der ergriffenen Maßnahmen abhängen und kann auch stochastisch sein.

  • Es sollte ein Belohnungssignal vorhanden sein , das der RL-Agent beobachten oder messen kann. Der Wert der Belohnung sollte von denselben Faktoren abhängen wie die Entwicklung des Staates, kann aber auf andere Weise von ihnen abhängen.

Der allgemeine Fall der Zeitreihenprognose kann dem angepasst werden, indem die Vorhersage als Aktion behandelt wird, wobei die Zustandsentwicklung nur vom aktuellen Zustand (plus Zufälligkeit) und der Belohnung abhängig von Zustand und Aktion abhängt. Auf diese Weise kann RL angewendet werden, aber die Kausalität fließt nur in eine Richtung - von der Umgebung in Ihr Vorhersagemodell. Das Beste, was Sie für Belohnungen tun können, ist beispielsweise, eine Metrik für die Richtigkeit der Vorhersagen zu verwenden. Konsequenzen für gute oder schlechte Vorhersagen wirken sich nicht auf die ursprüngliche Umgebung aus. Im Wesentlichen werden Sie am Ende ein Vorhersagemodell für die Sequenz (z. B. ein neuronales Netzwerk) in eine RL-Schicht einbinden, das leicht durch eine grundlegende Datensatzbehandlung für ein überwachtes Lernproblem ersetzt werden kann.

Eine Möglichkeit , Sie könnten nach Bedeutung Serie Prognose Probleme in RL Probleme verlaufen ist , den Umfang der Umwelt zu erhöhen , um die Entscheidungen einzubeziehen , die auf den Prognosen basieren, und den Zustand der Systeme , die von diesen Entscheidungen betroffen sind. Wenn Sie beispielsweise Aktienkurse vorhersagen, schließen Sie Ihr Portfolio und Ihre Fonds in den Staat ein. Ebenso hören die Aktionen auf, Vorhersagen zu sein und werden zu Kauf- und Verkaufsbefehlen. Dies wird die Preisvorhersagekomponente nicht verbessern (und Sie sollten dies wahrscheinlich besser als separates Problem behandeln, indem Sie geeignetere Tools verwenden - z. B. LSTM), aber es wird das Problem insgesamt als RL-Problem darstellen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.