Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Maßnahmen ergreifen sollten, um die Vorstellung von kumulativer Belohnung zu maximieren.
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert. Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout "gemittelt" (oder verallgemeinert) werden. Ich habe versucht, die …
Ich habe mit einem Algorithmus gespielt, der lernt, wie man Tictactoe spielt. Der grundlegende Pseudocode lautet: repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for …
Ich verstehe, dass wir in der Wert-Funktions-Näherung, insbesondere beim tiefen Q-Lernen, zuerst die Q-Werte für jede Aktion vorhersagen. Wenn es jedoch viele Aktionen gibt, ist diese Aufgabe nicht einfach. Bei der Richtlinieniteration müssen wir jedoch auch einen Softmax-Vektor ausgeben, der sich auf jede Aktion bezieht. Ich verstehe also nicht, wie …
Die Zustandswerte meines Q-Learning-Algorithmus weichen immer wieder ins Unendliche ab, was bedeutet, dass auch meine Gewichte voneinander abweichen. Ich verwende ein neuronales Netzwerk für meine Wertzuordnung. Ich habe es versucht: Beschneiden des "Belohnungs + Rabatt * Maximalwert der Aktion" (max / min auf 50 / -50 eingestellt) Einstellen einer niedrigen …
Kürzlich Forscher bei Google Deepmind veröffentlichten ein Papier , in dem sie ein Go Spielsystem beschrieben, das die besten aktuellen Computerprogramme und die menschlichen Europameister schlagen. Ich habe mir dieses Papier kurz angesehen und es scheint, dass es viele interessante Ideen aus früheren Papieren verwendet. Was haben sie anders gemacht, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.