Als «reinforcement-learning» getaggte Fragen

Eine Reihe dynamischer Strategien, mit denen ein Algorithmus die Struktur einer Umgebung online lernen kann, indem er adaptiv Aktionen ausführt, die mit verschiedenen Belohnungen verbunden sind, um die erzielten Belohnungen zu maximieren.

2
Fragen zum Q-Learning mit neuronalen Netzen
Ich habe Q-Learning implementiert, wie in http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Um ca. F (S, A) Ich verwende eine neuronale Netzwerkstruktur wie die folgende: Aktivierung Sigmoid Eingänge, Anzahl der Eingänge + 1 für Aktionsneuronen (alle Eingänge skaliert 0-1) Ausgänge, einzelner Ausgang. Q-Wert N Anzahl der M ausgeblendeten Ebenen. Explorationsmethode zufällig 0 <rand () <propExplore …

1
GAM vs LOESS vs Splines
Kontext : Ich möchte eine Linie in einem Streudiagramm zeichnen, die nicht parametrisch erscheint, daher verwende ich geom_smooth()in ggplotin R. Es gibt automatisch geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …


1
Warum ist intensives Lernen nicht stabil?
In DeepMinds 2015 veröffentlichtem Artikel über vertieftes Lernen heißt es, dass "frühere Versuche, RL mit neuronalen Netzen zu kombinieren, größtenteils aufgrund von instabilem Lernen gescheitert waren". Der Aufsatz listet dann einige Ursachen auf, die auf Korrelationen zwischen den Beobachtungen beruhen. Könnte mir bitte jemand erklären, was das bedeutet? Handelt es …

4
Warum gibt es immer mindestens eine Richtlinie, die besser oder gleich allen anderen Richtlinien ist?
Reinforcement Learning: Eine Einführung. Zweite Auflage, in Bearbeitung . Richard S. Sutton und Andrew G. Barto (c) 2012, S. 67-68. Das Lösen einer Bestärkungslernaufgabe bedeutet ungefähr, eine Politik zu finden, die auf lange Sicht eine Menge Belohnung bringt. Für endliche MDPs können wir eine optimale Richtlinie auf folgende Weise präzise …

1
Optimaler Algorithmus zur Lösung von n-armigen Banditenproblemen?
Ich habe über eine Reihe von Algorithmen zur Lösung von Problemen mit n-bewaffneten Banditen wie -greedy, Softmax und UCB1 gelesen, habe jedoch einige Probleme, herauszufinden, welcher Ansatz zur Minimierung von Bedauern am besten geeignet ist.ϵϵ\epsilon Gibt es einen bekannten optimalen Algorithmus zur Lösung des n-bewaffneten Banditenproblems? Gibt es eine Auswahl …




2
Wann werden Monte-Carlo-Methoden gegenüber zeitlichen Differenzmethoden bevorzugt?
Ich habe in letzter Zeit viel über Reinforcement Learning geforscht. Ich folgte Sutton & Bartos Reinforcement Learning: Eine Einführung für das meiste davon. Ich weiß, was Markov-Entscheidungsprozesse sind und wie das Lernen mit dynamischer Programmierung (DP), Monte Carlo und zeitlichem Unterschied (DP) verwendet werden kann, um sie zu lösen. Das …


1
Q-Learning mit Neural Network als Funktionsnäherung
Ich versuche, ein neuronales Netzwerk zu verwenden, um den Q-Wert beim Q-Learning wie bei Fragen zum Q-Learning mit neuronalen Netzwerken zu approximieren . Wie in der ersten Antwort vorgeschlagen, verwende ich eine lineare Aktivierungsfunktion für die Ausgabeebene, während ich weiterhin die Sigmoid-Aktivierungsfunktion in den verborgenen Ebenen verwende (2, obwohl ich …


1
Kann ein Modell von P (Y | X) durch stochastischen Gradientenabstieg von nicht-iid-Proben von P (X) und iid-Proben von P (Y | X) trainiert werden?
Beim Trainieren eines parametrisierten Modells (z. B. zur Maximierung der Wahrscheinlichkeit) über einen stochastischen Gradientenabstieg in einem Datensatz wird üblicherweise angenommen, dass die Trainingsmuster aus der Trainingsdatenverteilung entnommen werden. Wenn das Ziel darin besteht, eine gemeinsame Verteilung zu modellieren , sollte jede Trainingsprobe aus dieser Verteilung gezogen werden.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Wenn das …

2
Warum konvergiert der Richtlinieniterationsalgorithmus zur optimalen Richtlinien- und Wertfunktion?
Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .V.∗V.∗V^*π∗π∗\pi^* Die Iteration der Rückrufrichtlinie lautet: Initialisiere π nach dem ZufallsprinzipWiederhole {L e t V. : = V.π \ Lösen Sie für die aktuelle Richtlinie …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.