Statistiken und Big Data reinforcement-learning

5

Was ist der Unterschied zwischen off-policy und on-policy Lernen?

Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt: "Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, …

79 machine-learning reinforcement-learning artificial-intelligence

3

Verständnis der Rolle des Abzinsungsfaktors beim Lernen zur Stärkung

Ich unterrichte mich selbst über das Lernen der Bestärkung und versuche, das Konzept der ermäßigten Belohnung zu verstehen. Die Belohnung ist also notwendig, um dem System mitzuteilen, welche State-Action-Paare gut und welche schlecht sind. Aber was ich nicht verstehe, ist, warum die vergünstigte Belohnung notwendig ist. Warum sollte es wichtig …

43 machine-learning reinforcement-learning

2

Warum gibt es für Schach, ähnlich wie AlphaGo, keine Deep-Enforcement-Lern-Engines?

Computer sind seit langem in der Lage, Schach mit einer "Brute-Force" -Technik zu spielen, bis zu einer bestimmten Tiefe zu suchen und dann die Position zu bewerten. Der AlphaGo-Computer verwendet jedoch nur eine ANN, um die Positionen auszuwerten (er führt meines Wissens keine Tiefensuche durch). Ist es möglich, eine Schachengine …

32 neural-networks deep-learning reinforcement-learning games

9

Ableiten der Bellman-Gleichung beim Reinforcement Learning

Ich sehe die folgende Gleichung in " In Reinforcement Learning. Eine Einführung ", folge aber nicht ganz dem Schritt, den ich unten in Blau hervorgehoben habe. Wie genau leitet sich dieser Schritt ab?

32 expected-value reinforcement-learning

2

Betreutes Lernen, unbeaufsichtigtes Lernen und Bestärkungslernen: Workflow-Grundlagen

Überwachtes Lernen 1) Ein menschliches baut einen Klassifizierer basierend auf Eingabe und Ausgabedaten 2) Dieser Klassifikator wird mit einem Trainingsdatensatz trainiert 3) Dieser Klassifikator wird mit einem Testdatensatz getestet 4) Bereitstellung, wenn die Ausgabe zufriedenstellend ist Um verwendet zu werden, wenn "Ich weiß, wie man diese Daten klassifiziert, ich brauche …

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

3

Bester Banditenalgorithmus?

Der bekannteste Algorithmus für Banditen ist der Upper Confidence Bound (UCB), der diese Klasse von Algorithmen bekannt gemacht hat. Seitdem gehe ich davon aus, dass es jetzt bessere Algorithmen gibt. Was ist der derzeit beste Algorithmus (in Bezug auf empirische Leistung oder theoretische Grenzen)? Ist dieser Algorithmus in gewissem Sinne …

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

3

Tägliche Zeitreihenanalyse

Ich versuche eine Zeitreihenanalyse durchzuführen und bin neu in diesem Bereich. Ich habe eine tägliche Zählung eines Ereignisses von 2006-2009 und möchte ein Zeitreihenmodell dazu passen. Hier sind die Fortschritte, die ich gemacht habe: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Das resultierende Diagramm, das ich erhalte, ist: Um zu überprüfen, ob Saisonalität …

24 r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

4

Wie würden Sie ein maschinelles Lernsystem entwickeln, um Angry Birds zu spielen?

Nachdem ich viel zu viel Angry Birds gespielt hatte, begann ich meine eigenen Strategien zu beobachten. Es stellt sich heraus, dass ich einen sehr spezifischen Ansatz entwickelt habe, um auf jeder Ebene 3 Sterne zu bekommen. Das brachte mich auf die Herausforderung, ein maschinelles Lernsystem zu entwickeln, mit dem Angry …

22 machine-learning reinforcement-learning

2

Was ist wiederkehrendes Verstärkungslernen?

Ich bin kürzlich auf das Wort "Recurrent Reinforcement Learning" gestoßen. Ich verstehe, was "Recurrent Neural Network" ist und was "Reinforcement Learning" ist, konnte aber nicht viele Informationen darüber finden, was "Recurrent Reinforcement Learning" ist. Kann mir jemand erklären, was ein "Recurrent Reinforcement Learning" ist und was der Unterschied zwischen "Recurrent …

20 machine-learning reinforcement-learning

4

Warum verwendet Q-Learning beim Testen epsilon-greedy?

In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt wird. Die Auswahl zwischen diesen beiden erfolgt …

18 machine-learning reinforcement-learning q-learning deep-rl

2

wie man eine Belohnung beim Lernen zur Stärkung einsetzt

Während des Studiums von Reinforcement Learning bin ich auf viele Formen der Belohnungsfunktion gestoßen: , und sogar eine Belohnungsfunktion, die nur vom aktuellen Status abhängt. Allerdings wurde mir klar, dass es nicht sehr einfach ist, eine Belohnungsfunktion zu erstellen oder zu definieren.R ( s , a , s ' )R …

18 machine-learning reinforcement-learning

1

Wann sollten Sie SARSA vs. Q Learning wählen?

SARSA und Q Learning sind beide Verstärkungslernalgorithmen, die auf ähnliche Weise funktionieren. Der auffälligste Unterschied ist, dass SARSA in der Politik ist, während Q Learning nicht in der Politik ist. Die Update-Regeln lauten wie folgt: Q Lernen: Q ( st, eint) ← Q ( st, eint) + α [ rt …

18 reinforcement-learning

2

Warum wurde der Buchstabe Q in Q-learning gewählt?

Warum wurde der Buchstabe Q im Namen von Q-learning gewählt? Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht ππ\pi für policy und vvv für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort ist.

17 terminology reinforcement-learning history q-learning

1

Ist betreutes Lernen eine Untergruppe des Bestärkungslernens?

Es scheint, als ob die Definition des überwachten Lernens eine Teilmenge des verstärkenden Lernens ist, mit einer bestimmten Art von Belohnungsfunktion, die auf beschrifteten Daten basiert (im Gegensatz zu anderen Informationen in der Umgebung). Ist das eine genaue Darstellung?

16 machine-learning terminology reinforcement-learning supervised-learning definition

4

In welchen realen Situationen können wir einen mehrarmigen Banditenalgorithmus verwenden?

Multi-Arm-Banditen funktionieren gut in Situationen, in denen Sie die Wahl haben und nicht sicher sind, welche Banditen Ihr Wohlbefinden maximieren. Sie können den Algorithmus für einige reale Situationen verwenden. Lernen kann zum Beispiel ein gutes Feld sein: Wenn ein Kind Tischlerei lernt und es schlecht darin ist, sagt ihm der …

15 algorithms reinforcement-learning multiarmed-bandit

Als «reinforcement-learning» getaggte Fragen