TL; DR.
Die Tatsache, dass der Abzinsungssatz zwangsläufig kleiner als 1 ist, ist ein mathematischer Trick, um eine unendliche Summe endlich zu machen. Dies hilft, die Konvergenz bestimmter Algorithmen zu beweisen.
In der Praxis könnte der Abzinsungsfaktor verwendet werden, um die Tatsache zu modellieren, dass der Entscheidungsträger sich nicht sicher ist, ob im nächsten Entscheidungszeitpunkt die Welt (z. B. Umgebung / Spiel / Prozess ) enden wird.
Zum Beispiel:
Wenn der Entscheider ein Roboter ist, kann der Abzinsungsfaktor die Wahrscheinlichkeit sein, dass der Roboter zum nächsten Zeitpunkt ausgeschaltet wird (die Welt endet in der vorherigen Terminologie). Aus diesem Grund ist der Roboter kurzsichtig und optimiert nicht die Summenbelohnung, sondern die
reduzierte Summenbelohnung.
Rabattfaktor kleiner als 1 (im Detail)
Um genauer zu antworten, warum der Diskontsatz kleiner als eins sein muss, werde ich zuerst die Markov-Entscheidungsprozesse (MDPs) einführen.
Verstärkungslerntechniken können verwendet werden, um MDPs zu lösen. Ein MDP bietet einen mathematischen Rahmen für die Modellierung von Entscheidungssituationen, in denen die Ergebnisse teilweise zufällig sind und teilweise von den Entscheidungsträgern kontrolliert werden. Ein MDP wird über einen Zustandsraum , einen Aktionsraum , eine Funktion der Übergangswahrscheinlichkeiten zwischen Zuständen (abhängig von der Aktion des Entscheidungsträgers) und eine Belohnungsfunktion definiert.SEIN
In seiner Grundeinstellung ergreift und handelt der Entscheidungsträger und erhält eine Belohnung von der Umgebung, und die Umgebung ändert ihren Zustand. Dann spürt der Entscheider den Zustand der Umgebung, ergreift Maßnahmen, erhält eine Belohnung und so weiter. Die Zustandsübergänge sind probabilistisch und hängen ausschließlich vom tatsächlichen Zustand und den Maßnahmen des Entscheidungsträgers ab. Die Belohnung, die der Entscheidungsträger erhält, hängt von den ergriffenen Maßnahmen sowie vom ursprünglichen und vom neuen Zustand der Umwelt ab.
Eine Belohnung wird erhalten, wenn die Aktion im Zustand und die Umgebung / das System wechselt in den Zustand nachdem der Entscheidungsträger die Aktion . Der Entscheider folgt einer Richtlinie: , die für jeden Status eine Aktion . Damit die Richtlinie dem Entscheidungsträger mitteilt, welche Maßnahmen in den einzelnen Bundesstaaten zu ergreifen sind. Die Policy kann auch zufällig gewählt werden, spielt aber im Moment keine Rolle.Reinich( sj, sk)einichsjskeinichπ π( ⋅ ) : S→ Asj∈ Seinich∈ Aπ
Ziel ist es, eine Politik zu finden , so dassπ
maxπ: S( n ) → aichlimT→ ∞E{ ∑n = 1TβnRXich( S( n ) , S( n + 1 ) ) } ( 1 ) ,
ββ<1
wobei der Abzinsungsfaktor ist und .ββ< 1
Beachten Sie, dass das oben genannte Optimierungsproblem einen unendlichen Zeithorizont hat ( ) und das Ziel darin besteht, die Summe der Belohnungen zu maximieren (die Belohnung wird mit multipliziert ). Dies wird in der Regel als MDP-Problem mit einem unendlichen Preisnachlasshorizont bezeichnet .T→ ∞di s c o u n t e dRβn
Das Problem heißt diskontiert, weil . Wenn es kein reduziertes Problem wäre die Summe nicht konvergieren. Alle Policen, die zu jedem Zeitpunkt im Durchschnitt eine positive Belohnung erhalten, summieren sich zu unendlich. Dies wäre ein Belohnungskriterium für eine unendliche Horizontsumme und kein gutes Optimierungskriterium.β< 1β= 1
Hier ist ein Spielzeugbeispiel, um dir zu zeigen, was ich meine:
Angenommen, es gibt nur zwei mögliche Aktionen: und die Belohnungsfunktion ist gleich wenn , und wenn (Belohnung hängt nicht vom Status ab).a = 0 , 1R1a = 10a = 0
Es ist klar, dass die Politik, die mehr Belohnung erhält, darin besteht, immer die Aktion und niemals die Aktion . Ich werde diese Richtlinie . Ich werde mit einer anderen Richtlinie , die Aktion mit geringer Wahrscheinlichkeit , andernfalls Aktion .a = 1a = 0π∗π∗π′a = 1α < < 1a = 0
Im unendlichen Horizont wird die Gleichung (1) zu (die Summe einer geometrischen Reihe) für Richtlinie während für Richtlinie Gleichung (1) zu . Da , ist eine bessere Richtlinie als . Tatsächlich ist die optimale Richtlinie.11 - βπ∗π′α1 - β11 - β> α1 - βπ∗π′π∗
Im unendlichen Horizont konvergiert die Summenbelohnungskriterium ( ) Gleichung (1) für keine der Richtlinien (sie summiert sich zu Unendlich). Während also Policy höhere Belohnungen erzielt als beide Policies nach diesen Kriterien gleich. Dies ist einer der Gründe, warum die Kriterien für die Belohnung einer unendlichen Horizontsumme nicht nützlich sind.β= 1ππ′
Wie ich bereits erwähnt habe, führt dass die Summe in Gleichung (1) konvergiert.β< 1
Andere Optimalitätskriterien
Es gibt andere Optimalitätskriterien, die nicht festlegen, dass :β< 1
Das endliche Horizontkriterium für den Fall, dass das Ziel darin besteht, die abgezinste Belohnung zu maximieren, bis der ZeithorizontT
maxπ: S( n ) → aichE{ ∑n = 1TβnRXich( S( n ) , S( n + 1 ) ) } ,
für und endlich.β≤ 1T
In den Durchschnittsbelohnungskriterien für den unendlichen Horizont lautet das Ziel
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Endnote
Abhängig von den Optimalitätskriterien würde man einen anderen Algorithmus verwenden, um die optimale Richtlinie zu finden. Zum Beispiel würde die optimale Politik der Probleme mit dem endlichen Horizont sowohl vom Zustand als auch vom tatsächlichen Zeitpunkt abhängen. Die meisten Reinforcement-Learning-Algorithmen (wie SARSA oder Q-Learning) konvergieren nur für die unendlichen Horizontkriterien mit reduzierter Belohnung zur optimalen Richtlinie (dasselbe gilt für die dynamischen Programmieralgorithmen). Für die durchschnittlichen Belohnungskriterien gibt es keinen Algorithmus, von dem gezeigt wurde, dass er zur optimalen Richtlinie konvergiert. Man kann jedoch R-Learning verwenden, das eine gute Leistung aufweist, wenn auch keine gute theoretische Konvergenz.