Eine Reihe dynamischer Strategien, mit denen ein Algorithmus die Struktur einer Umgebung online lernen kann, indem er adaptiv Aktionen ausführt, die mit verschiedenen Belohnungen verbunden sind, um die erzielten Belohnungen zu maximieren.
Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt: "Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, …
Ich unterrichte mich selbst über das Lernen der Bestärkung und versuche, das Konzept der ermäßigten Belohnung zu verstehen. Die Belohnung ist also notwendig, um dem System mitzuteilen, welche State-Action-Paare gut und welche schlecht sind. Aber was ich nicht verstehe, ist, warum die vergünstigte Belohnung notwendig ist. Warum sollte es wichtig …
Computer sind seit langem in der Lage, Schach mit einer "Brute-Force" -Technik zu spielen, bis zu einer bestimmten Tiefe zu suchen und dann die Position zu bewerten. Der AlphaGo-Computer verwendet jedoch nur eine ANN, um die Positionen auszuwerten (er führt meines Wissens keine Tiefensuche durch). Ist es möglich, eine Schachengine …
Ich sehe die folgende Gleichung in " In Reinforcement Learning. Eine Einführung ", folge aber nicht ganz dem Schritt, den ich unten in Blau hervorgehoben habe. Wie genau leitet sich dieser Schritt ab?
Überwachtes Lernen 1) Ein menschliches baut einen Klassifizierer basierend auf Eingabe und Ausgabedaten 2) Dieser Klassifikator wird mit einem Trainingsdatensatz trainiert 3) Dieser Klassifikator wird mit einem Testdatensatz getestet 4) Bereitstellung, wenn die Ausgabe zufriedenstellend ist Um verwendet zu werden, wenn "Ich weiß, wie man diese Daten klassifiziert, ich brauche …
Der bekannteste Algorithmus für Banditen ist der Upper Confidence Bound (UCB), der diese Klasse von Algorithmen bekannt gemacht hat. Seitdem gehe ich davon aus, dass es jetzt bessere Algorithmen gibt. Was ist der derzeit beste Algorithmus (in Bezug auf empirische Leistung oder theoretische Grenzen)? Ist dieser Algorithmus in gewissem Sinne …
Ich versuche eine Zeitreihenanalyse durchzuführen und bin neu in diesem Bereich. Ich habe eine tägliche Zählung eines Ereignisses von 2006-2009 und möchte ein Zeitreihenmodell dazu passen. Hier sind die Fortschritte, die ich gemacht habe: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Das resultierende Diagramm, das ich erhalte, ist: Um zu überprüfen, ob Saisonalität …
Nachdem ich viel zu viel Angry Birds gespielt hatte, begann ich meine eigenen Strategien zu beobachten. Es stellt sich heraus, dass ich einen sehr spezifischen Ansatz entwickelt habe, um auf jeder Ebene 3 Sterne zu bekommen. Das brachte mich auf die Herausforderung, ein maschinelles Lernsystem zu entwickeln, mit dem Angry …
Ich bin kürzlich auf das Wort "Recurrent Reinforcement Learning" gestoßen. Ich verstehe, was "Recurrent Neural Network" ist und was "Reinforcement Learning" ist, konnte aber nicht viele Informationen darüber finden, was "Recurrent Reinforcement Learning" ist. Kann mir jemand erklären, was ein "Recurrent Reinforcement Learning" ist und was der Unterschied zwischen "Recurrent …
In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt wird. Die Auswahl zwischen diesen beiden erfolgt …
Während des Studiums von Reinforcement Learning bin ich auf viele Formen der Belohnungsfunktion gestoßen: , und sogar eine Belohnungsfunktion, die nur vom aktuellen Status abhängt. Allerdings wurde mir klar, dass es nicht sehr einfach ist, eine Belohnungsfunktion zu erstellen oder zu definieren.R ( s , a , s ' )R …
SARSA und Q Learning sind beide Verstärkungslernalgorithmen, die auf ähnliche Weise funktionieren. Der auffälligste Unterschied ist, dass SARSA in der Politik ist, während Q Learning nicht in der Politik ist. Die Update-Regeln lauten wie folgt: Q Lernen: Q ( st, eint) ← Q ( st, eint) + α [ rt …
Warum wurde der Buchstabe Q im Namen von Q-learning gewählt? Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht ππ\pi für policy und vvv für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort ist.
Es scheint, als ob die Definition des überwachten Lernens eine Teilmenge des verstärkenden Lernens ist, mit einer bestimmten Art von Belohnungsfunktion, die auf beschrifteten Daten basiert (im Gegensatz zu anderen Informationen in der Umgebung). Ist das eine genaue Darstellung?
Multi-Arm-Banditen funktionieren gut in Situationen, in denen Sie die Wahl haben und nicht sicher sind, welche Banditen Ihr Wohlbefinden maximieren. Sie können den Algorithmus für einige reale Situationen verwenden. Lernen kann zum Beispiel ein gutes Feld sein: Wenn ein Kind Tischlerei lernt und es schlecht darin ist, sagt ihm der …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.