Data Science reinforcement-learning

1

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

2

Wie funktioniert die allgemeine Vorteilsschätzung?

Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert. Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout "gemittelt" (oder verallgemeinert) werden. Ich habe versucht, die …

8 machine-learning reinforcement-learning

2

Ist das ein Q-Learning-Algorithmus oder nur Brute Force?

Ich habe mit einem Algorithmus gespielt, der lernt, wie man Tictactoe spielt. Der grundlegende Pseudocode lautet: repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for …

8 machine-learning neural-network reinforcement-learning q-learning

2

Warum werden Richtliniengradientenmethoden in kontinuierlichen Aktionsbereichen der Annäherung an Wertfunktionen vorgezogen?

Ich verstehe, dass wir in der Wert-Funktions-Näherung, insbesondere beim tiefen Q-Lernen, zuerst die Q-Werte für jede Aktion vorhersagen. Wenn es jedoch viele Aktionen gibt, ist diese Aufgabe nicht einfach. Bei der Richtlinieniteration müssen wir jedoch auch einen Softmax-Vektor ausgeben, der sich auf jede Aktion bezieht. Ich verstehe also nicht, wie …

7 reinforcement-learning

2

Warum geht Q Learning auseinander?

Die Zustandswerte meines Q-Learning-Algorithmus weichen immer wieder ins Unendliche ab, was bedeutet, dass auch meine Gewichte voneinander abweichen. Ich verwende ein neuronales Netzwerk für meine Wertzuordnung. Ich habe es versucht: Beschneiden des "Belohnungs + Rabatt * Maximalwert der Aktion" (max / min auf 50 / -50 eingestellt) Einstellen einer niedrigen …

7 machine-learning python reinforcement-learning q-learning

2

Was ist die Neuheit in AlphaGo, dem Go-Spielsystem von Google Deepmind?

Kürzlich Forscher bei Google Deepmind veröffentlichten ein Papier , in dem sie ein Go Spielsystem beschrieben, das die besten aktuellen Computerprogramme und die menschlichen Europameister schlagen. Ich habe mir dieses Papier kurz angesehen und es scheint, dass es viele interessante Ideen aus früheren Papieren verwendet. Was haben sie anders gemacht, …

7 reinforcement-learning

Als «reinforcement-learning» getaggte Fragen