Als «q-learning» getaggte Fragen

Ein beliebter Algorithmus zum Lernen der Verstärkung, eine Instanz des TD-Lernens (zeitlicher Unterschied).




1
Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?
Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen …

1
Übersicht über Verstärkungslernalgorithmen
Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des Reinforcement-Lernens, aber es gibt keinen Hinweis auf verschiedene Algorithmen, die diese Methoden …


4
Wie interpretiere ich eine Überlebenskurve des Cox-Hazard-Modells?
Wie interpretieren Sie eine Überlebenskurve aus dem Cox-Proportional-Hazard-Modell? Nehmen wir in diesem Spielzeugbeispiel an, wir haben ein Cox-Proportional-Hazard-Modell für ageVariablen in kidneyDaten und generieren die Überlebenskurve. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Welche Aussage ist zum Zeitpunkt zum Beispiel wahr? oder sind beide falsch?200200200 Statement 1: Wir …

1
Wie effizient ist Q-Learning mit neuronalen Netzen, wenn pro Aktion eine Ausgabeeinheit vorhanden ist?
Hintergrund: Ich verwende in meiner Lernaufgabe zur Verstärkung die Q-Wert-Näherung des neuronalen Netzwerks. Der Ansatz ist genau der gleiche wie der in dieser Frage beschriebene , jedoch ist die Frage selbst anders. Bei diesem Ansatz ist die Anzahl der Ausgaben die Anzahl der Aktionen, die wir ausführen können. In einfachen …

3
Warum gibt es beim Q-Learning (Bestärkungslernen) keine Übergangswahrscheinlichkeit?
Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V.sπ=∑p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q.π(s,ein)=∑p(s'|s,s)[r(s'|s,ein)+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s,ein0=ein]]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Wenn wir jedoch die Q-Learning-Methode verwenden, um die optimale Strategie zu erhalten, sieht die Aktualisierungsmethode wie folgt aus: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q.(S.,EIN)← …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.