Als «reinforcement-learning» getaggte Fragen

Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Maßnahmen ergreifen sollten, um die Vorstellung von kumulativer Belohnung zu maximieren.


1
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
Unterschied zwischen dem Richtliniennetzwerk von AlphaGo und dem Wertnetzwerk
Ich habe eine allgemeine Zusammenfassung zu Googles AlphaGo gelesen ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) und bin auf die Begriffe "Richtlinie" gestoßen network "und" value network ". Auf hoher Ebene verstehe ich, dass das Richtliniennetzwerk verwendet wird, um Bewegungen vorzuschlagen, und das Wertnetzwerk verwendet wird, um "die Tiefe des Suchbaums zu verringern [und …


1
Was ist "Experience Replay" und welche Vorteile hat es?
Ich habe gelesen , DeepMind Ataris Google Papier und ich versuche , das Konzept der „Erfahrung replay“ zu verstehen. Die Wiederholung von Erfahrungen ist in vielen anderen Lernpapieren zur Verstärkung enthalten (insbesondere im AlphaGo-Papier), daher möchte ich verstehen, wie es funktioniert. Nachfolgend einige Auszüge. Zunächst verwendeten wir einen biologisch inspirierten …

4
AlphaGo (und andere Spieleprogramme, bei denen das Lernen durch Verstärkung verwendet wird) ohne menschliche Datenbank
Ich bin kein Fachmann auf diesem Gebiet, und meine Frage ist wahrscheinlich sehr naiv. Es geht aus einem Aufsatz hervor, in dem die Möglichkeiten und Grenzen des Lernens zur Stärkung, wie sie im AlphaGo-Programm verwendet werden, erläutert werden. Das Programm AlphaGo wurde unter anderem mit Hilfe von neuronalen Netzen (Monte-Carlo-Erforschung …

1
Betreutes Lernen versus Bestärkungslernen für ein einfaches selbstfahrendes RC-Auto
Ich baue aus Spaß ein ferngesteuertes, selbstfahrendes Auto. Ich verwende einen Raspberry Pi als Bordcomputer. und ich benutze verschiedene Plug-Ins, wie eine Himbeer-Pi-Kamera und Abstandssensoren, um Rückmeldung über die Umgebung des Autos zu erhalten. Ich benutze OpenCV, um die Video-Frames in Tensoren umzuwandeln, und ich benutze TensorFlow von Google, um …

4
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Warum normalisieren wir die reduzierten Belohnungen, wenn wir das Lernen zur Verstärkung von Richtliniengradienten durchführen?
Ich versuche, den Policy-Gradient- Ansatz zur Lösung des Cartpole- Problems zu verstehen . Bei diesem Ansatz drücken wir den Gradienten des Verlusts für jeden Parameter unserer Richtlinie als Erwartung der Summe der Gradienten unseres Richtliniengradienten für alle Aktionen in einer Sequenz aus, gewichtet mit der Summe der abgezinsten Belohnungen in …

2
Kooperatives Reinforcement Learning
Ich habe bereits eine funktionierende -Implementierung für einen einzelnen Agenten, der an einem dynamischen Preisproblem mit dem Ziel der Maximierung des Umsatzes arbeitet. Das Problem, mit dem ich arbeite, betrifft jedoch mehrere verschiedene Produkte, die sich gegenseitig ersetzen. Daher scheint es falsch, sie alle mit unabhängigen Lernenden dynamisch zu bewerten, …

2
zeitliche Differenz im Schach umsetzen
Ich habe ein Schachprogramm entwickelt, das einen Alpha-Beta-Bereinigungsalgorithmus und eine Bewertungsfunktion verwendet, die Positionen unter Verwendung der folgenden Merkmale bewertet, nämlich Material, Königssicherheit, Mobilität, Bauernstruktur und gefangene Figuren usw. ..... Meine Bewertungsfunktion ist abgeleitet von der f(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot …


4
Bücher über Reinforcement Learning
Ich habe schon seit einiger Zeit versucht, das Lernen von Verstärkung zu verstehen, aber irgendwie kann ich mir nicht vorstellen, wie man ein Programm für das Lernen von Verstärkung schreibt, um ein Problem der Gitterwelt zu lösen. Können Sie mir einige Lehrbücher vorschlagen, die mir helfen würden, eine klare Vorstellung …

2
Priorisierte Wiedergabe, was macht Importance Sampling wirklich?
Ich kann den Zweck der Wichtigkeitsabtastung von Gewichten (IS) in der priorisierten Wiedergabe (Seite 5) nicht verstehen . Es ist wahrscheinlicher, dass ein Übergang aus der Erfahrungswiederholung entnommen wird, je höher seine "Kosten" sind. Nach meinem Verständnis hilft 'IS' dabei, die Verwendung der priorisierten Wiedergabe reibungslos aufzugeben, nachdem wir lange …

3
Welche Kenntnisse benötige ich, um ein einfaches KI-Programm zum Spielen eines Spiels zu schreiben?
Ich bin ein B.Sc-Absolvent. Einer meiner Kurse war "Einführung in das maschinelle Lernen", und ich wollte immer ein persönliches Projekt in diesem Fach machen. Ich habe kürzlich von verschiedenen KI-Trainings gehört, um Spiele wie Mario, Go usw. zu spielen. Welche Kenntnisse muss ich erwerben, um ein einfaches KI-Programm zum Spielen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.