Eine Reihe dynamischer Strategien, mit denen ein Algorithmus die Struktur einer Umgebung online lernen kann, indem er adaptiv Aktionen ausführt, die mit verschiedenen Belohnungen verbunden sind, um die erzielten Belohnungen zu maximieren.
Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen …
Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des Reinforcement-Lernens, aber es gibt keinen Hinweis auf verschiedene Algorithmen, die diese Methoden …
Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen? F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. In jeder Episode werden die Belohnungen auf den Ausgangszustand zurückgesetzt. Ich möchte nur, dass mein Agent lernt: "Gehen Sie …
Wie interpretieren Sie eine Überlebenskurve aus dem Cox-Proportional-Hazard-Modell? Nehmen wir in diesem Spielzeugbeispiel an, wir haben ein Cox-Proportional-Hazard-Modell für ageVariablen in kidneyDaten und generieren die Überlebenskurve. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Welche Aussage ist zum Zeitpunkt zum Beispiel wahr? oder sind beide falsch?200200200 Statement 1: Wir …
Hintergrund: Ich verwende in meiner Lernaufgabe zur Verstärkung die Q-Wert-Näherung des neuronalen Netzwerks. Der Ansatz ist genau der gleiche wie der in dieser Frage beschriebene , jedoch ist die Frage selbst anders. Bei diesem Ansatz ist die Anzahl der Ausgaben die Anzahl der Aktionen, die wir ausführen können. In einfachen …
Beim verstärkten Lernen haben wir eine Belohnungsfunktion, die den Agenten darüber informiert, wie gut seine aktuellen Aktionen und Zustände sind. In einigen allgemeinen Einstellungen ist die Belohnungsfunktion eine Funktion von drei Variablen: Aktueller ZustandS.SS Aktuelle Aktion im aktuellen Zustandπ( s ) = aπ(s)=a\pi(s) = a Nächster ZustandS.'S′S' Es sieht also …
Kennt jemand ein Beispiel für einen Algorithmus, den Williams in Artikel "Eine Klasse von Gradientenschätzungsalgorithmen für das Verstärkungslernen in neuronalen Netzen" vorgeschlagen hat ? Http://incompleteideas.net/sutton/williams-92.pdf
Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt mir. In Sutton und Bartons Buch Seite 274 (292 des …
Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen: c ln N.ichnich- -- -- -- -- -√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der Proben, die wir von allen Banditen …
Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie wie folgt definiert istππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right] …
Ich habe daran gearbeitet, die optimale Kommunikationsrichtlinie für Kunden zu lernen (welche Benachrichtigungen gesendet werden sollen, wie viele gesendet werden sollen und wann gesendet werden soll). Ich habe historische Daten früherer Benachrichtigungen (mit Zeitstempeln) und deren Leistungen gesendet. Ich habe versucht, RL auf dieses Problem anzuwenden, um die optimale Richtlinie …
Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V.sπ=∑p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q.π(s,ein)=∑p(s'|s,s)[r(s'|s,ein)+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s,ein0=ein]]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Wenn wir jedoch die Q-Learning-Methode verwenden, um die optimale Strategie zu erhalten, sieht die Aktualisierungsmethode wie folgt aus: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q.(S.,EIN)← …
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
In Richard Suttons Buch über RL (2. Auflage) stellt er den Dyna-Q-Algorithmus vor, der Planung und Lernen kombiniert. Im Planungsteil des Algorithmus tastet der Dyna-Agent zufällig n Zustands-Aktions-Paare zuvor vom Agenten gesehen wurden, speist dieses Paar in sein Umgebungsmodell ein und erhält einen abgetasteten nächsten Zustand und eine Belohnung . …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.