Statistiken und Big Data reinforcement-learning

1

Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?

Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen …

10 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

Übersicht über Verstärkungslernalgorithmen

Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des Reinforcement-Lernens, aber es gibt keinen Hinweis auf verschiedene Algorithmen, die diese Methoden …

9 reinforcement-learning q-learning

2

Verstärkungslernen in instationärer Umgebung

Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen? F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. In jeder Episode werden die Belohnungen auf den Ausgangszustand zurückgesetzt. Ich möchte nur, dass mein Agent lernt: "Gehen Sie …

9 markov-process reinforcement-learning stationarity q-learning

4

Wie interpretiere ich eine Überlebenskurve des Cox-Hazard-Modells?

Wie interpretieren Sie eine Überlebenskurve aus dem Cox-Proportional-Hazard-Modell? Nehmen wir in diesem Spielzeugbeispiel an, wir haben ein Cox-Proportional-Hazard-Modell für ageVariablen in kidneyDaten und generieren die Überlebenskurve. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Welche Aussage ist zum Zeitpunkt zum Beispiel wahr? oder sind beide falsch?200200200 Statement 1: Wir …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Wie effizient ist Q-Learning mit neuronalen Netzen, wenn pro Aktion eine Ausgabeeinheit vorhanden ist?

Hintergrund: Ich verwende in meiner Lernaufgabe zur Verstärkung die Q-Wert-Näherung des neuronalen Netzwerks. Der Ansatz ist genau der gleiche wie der in dieser Frage beschriebene , jedoch ist die Frage selbst anders. Bei diesem Ansatz ist die Anzahl der Ausgaben die Anzahl der Aktionen, die wir ausführen können. In einfachen …

9 machine-learning neural-networks reinforcement-learning q-learning

5

Warum (und wann) muss man die Belohnungsfunktion aus Stichproben beim Verstärkungslernen lernen?

Beim verstärkten Lernen haben wir eine Belohnungsfunktion, die den Agenten darüber informiert, wie gut seine aktuellen Aktionen und Zustände sind. In einigen allgemeinen Einstellungen ist die Belohnungsfunktion eine Funktion von drei Variablen: Aktueller ZustandS.SS Aktuelle Aktion im aktuellen Zustandπ( s ) = aπ(s)=a\pi(s) = a Nächster ZustandS.'S′S' Es sieht also …

9 machine-learning reinforcement-learning

2

Gibt es einen von Williams vorgeschlagenen Beispielcode für den REINFORCE-Algorithmus?

Kennt jemand ein Beispiel für einen Algorithmus, den Williams in Artikel "Eine Klasse von Gradientenschätzungsalgorithmen für das Verstärkungslernen in neuronalen Netzen" vorgeschlagen hat ? Http://incompleteideas.net/sutton/williams-92.pdf

9 reinforcement-learning

1

Schauspieler-Kritiker-Verlustfunktion beim verstärkten Lernen

Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt mir. In Sutton und Bartons Buch Seite 274 (292 des …

9 machine-learning reinforcement-learning actor-critic

2

Oberes Vertrauen in maschinelles Lernen gebunden

Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen: c ln N.ichnich- -- -- -- -- -√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der Proben, die wir von allen Banditen …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

2

Ist eine Politik beim verstärkten Lernen immer deterministisch?

Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie wie folgt definiert istππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right] …

8 reinforcement-learning deterministic-policy stochastic-policy

3

Verstärkungslernen anhand historischer Daten

Ich habe daran gearbeitet, die optimale Kommunikationsrichtlinie für Kunden zu lernen (welche Benachrichtigungen gesendet werden sollen, wie viele gesendet werden sollen und wann gesendet werden soll). Ich habe historische Daten früherer Benachrichtigungen (mit Zeitstempeln) und deren Leistungen gesendet. Ich habe versucht, RL auf dieses Problem anzuwenden, um die optimale Richtlinie …

8 reinforcement-learning

3

Warum gibt es beim Q-Learning (Bestärkungslernen) keine Übergangswahrscheinlichkeit?

Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V.sπ=∑p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q.π(s,ein)=∑p(s'|s,s)[r(s'|s,ein)+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s,ein0=ein]]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Wenn wir jedoch die Q-Learning-Methode verwenden, um die optimale Strategie zu erhalten, sieht die Aktualisierungsmethode wie folgt aus: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q.(S.,EIN)← …

8 reinforcement-learning q-learning

3

Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung

Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Unterschied zwischen dynamischer Programmierung und zeitlichem Differenzlernen beim Bestärkungslernen

Was ist beim verstärkten Lernen der Unterschied zwischen dynamischer Programmierung und zeitlichem Differenzlernen?

8 reinforcement-learning

2

Ist das Planen in Dyna-Q eine Form der Erfahrungswiederholung?

In Richard Suttons Buch über RL (2. Auflage) stellt er den Dyna-Q-Algorithmus vor, der Planung und Lernen kombiniert. Im Planungsteil des Algorithmus tastet der Dyna-Agent zufällig n Zustands-Aktions-Paare zuvor vom Agenten gesehen wurden, speist dieses Paar in sein Umgebungsmodell ein und erhält einen abgetasteten nächsten Zustand und eine Belohnung . …

8 reinforcement-learning q-learning

Als «reinforcement-learning» getaggte Fragen