In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt wird. Die Auswahl zwischen diesen beiden erfolgt …
Warum wurde der Buchstabe Q im Namen von Q-learning gewählt? Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht ππ\pi für policy und vvv für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort ist.
Ich versuche die berühmte Zeitung "Atari spielen mit Deep Reinforcement Learning" ( pdf ) zu verstehen . Mir ist der Unterschied zwischen einer Epoche und einer Episode unklar . In Algorithmus befindet sich die äußere Schleife über Episoden , während in Abbildung 2 die x-Achse als Epoche bezeichnet ist . …
Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen …
Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des Reinforcement-Lernens, aber es gibt keinen Hinweis auf verschiedene Algorithmen, die diese Methoden …
Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen? F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. In jeder Episode werden die Belohnungen auf den Ausgangszustand zurückgesetzt. Ich möchte nur, dass mein Agent lernt: "Gehen Sie …
Wie interpretieren Sie eine Überlebenskurve aus dem Cox-Proportional-Hazard-Modell? Nehmen wir in diesem Spielzeugbeispiel an, wir haben ein Cox-Proportional-Hazard-Modell für ageVariablen in kidneyDaten und generieren die Überlebenskurve. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Welche Aussage ist zum Zeitpunkt zum Beispiel wahr? oder sind beide falsch?200200200 Statement 1: Wir …
Hintergrund: Ich verwende in meiner Lernaufgabe zur Verstärkung die Q-Wert-Näherung des neuronalen Netzwerks. Der Ansatz ist genau der gleiche wie der in dieser Frage beschriebene , jedoch ist die Frage selbst anders. Bei diesem Ansatz ist die Anzahl der Ausgaben die Anzahl der Aktionen, die wir ausführen können. In einfachen …
Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V.sπ=∑p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q.π(s,ein)=∑p(s'|s,s)[r(s'|s,ein)+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s,ein0=ein]]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Wenn wir jedoch die Q-Learning-Methode verwenden, um die optimale Strategie zu erhalten, sieht die Aktualisierungsmethode wie folgt aus: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q.(S.,EIN)← …
In Richard Suttons Buch über RL (2. Auflage) stellt er den Dyna-Q-Algorithmus vor, der Planung und Lernen kombiniert. Im Planungsteil des Algorithmus tastet der Dyna-Agent zufällig n Zustands-Aktions-Paare zuvor vom Agenten gesehen wurden, speist dieses Paar in sein Umgebungsmodell ein und erhält einen abgetasteten nächsten Zustand und eine Belohnung . …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.