Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Maßnahmen ergreifen sollten, um die Vorstellung von kumulativer Belohnung zu maximieren.
Es scheint mir, dass die VVV Funktion leicht durch die QQQ Funktion ausgedrückt werden kann und daher die Funktion für mich überflüssig zu sein scheint. Allerdings lerne ich noch nicht viel, also habe ich wohl etwas falsch gemacht.VVV Definitionen Q- und V-Learning stehen im Kontext von Markov-Entscheidungsprozessen . Ein MDP …
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
Ich habe eine allgemeine Zusammenfassung zu Googles AlphaGo gelesen ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) und bin auf die Begriffe "Richtlinie" gestoßen network "und" value network ". Auf hoher Ebene verstehe ich, dass das Richtliniennetzwerk verwendet wird, um Bewegungen vorzuschlagen, und das Wertnetzwerk verwendet wird, um "die Tiefe des Suchbaums zu verringern [und …
Offensichtlich handelt es sich beim Verstärkungslernen bei der Zeitdifferenzmethode (TD-Methode) um eine Bootstrapping-Methode. Andererseits sind Monte-Carlo-Methoden keine Bootstrapping-Methoden. Was genau ist Bootstrapping in RL? Was ist eine Bootstrapping-Methode in RL?
Ich habe gelesen , DeepMind Ataris Google Papier und ich versuche , das Konzept der „Erfahrung replay“ zu verstehen. Die Wiederholung von Erfahrungen ist in vielen anderen Lernpapieren zur Verstärkung enthalten (insbesondere im AlphaGo-Papier), daher möchte ich verstehen, wie es funktioniert. Nachfolgend einige Auszüge. Zunächst verwendeten wir einen biologisch inspirierten …
Ich bin kein Fachmann auf diesem Gebiet, und meine Frage ist wahrscheinlich sehr naiv. Es geht aus einem Aufsatz hervor, in dem die Möglichkeiten und Grenzen des Lernens zur Stärkung, wie sie im AlphaGo-Programm verwendet werden, erläutert werden. Das Programm AlphaGo wurde unter anderem mit Hilfe von neuronalen Netzen (Monte-Carlo-Erforschung …
Ich baue aus Spaß ein ferngesteuertes, selbstfahrendes Auto. Ich verwende einen Raspberry Pi als Bordcomputer. und ich benutze verschiedene Plug-Ins, wie eine Himbeer-Pi-Kamera und Abstandssensoren, um Rückmeldung über die Umgebung des Autos zu erhalten. Ich benutze OpenCV, um die Video-Frames in Tensoren umzuwandeln, und ich benutze TensorFlow von Google, um …
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Ich versuche, den Policy-Gradient- Ansatz zur Lösung des Cartpole- Problems zu verstehen . Bei diesem Ansatz drücken wir den Gradienten des Verlusts für jeden Parameter unserer Richtlinie als Erwartung der Summe der Gradienten unseres Richtliniengradienten für alle Aktionen in einer Sequenz aus, gewichtet mit der Summe der abgezinsten Belohnungen in …
Ich habe bereits eine funktionierende -Implementierung für einen einzelnen Agenten, der an einem dynamischen Preisproblem mit dem Ziel der Maximierung des Umsatzes arbeitet. Das Problem, mit dem ich arbeite, betrifft jedoch mehrere verschiedene Produkte, die sich gegenseitig ersetzen. Daher scheint es falsch, sie alle mit unabhängigen Lernenden dynamisch zu bewerten, …
Ich habe ein Schachprogramm entwickelt, das einen Alpha-Beta-Bereinigungsalgorithmus und eine Bewertungsfunktion verwendet, die Positionen unter Verwendung der folgenden Merkmale bewertet, nämlich Material, Königssicherheit, Mobilität, Bauernstruktur und gefangene Figuren usw. ..... Meine Bewertungsfunktion ist abgeleitet von der f(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot …
Ich habe schon seit einiger Zeit versucht, das Lernen von Verstärkung zu verstehen, aber irgendwie kann ich mir nicht vorstellen, wie man ein Programm für das Lernen von Verstärkung schreibt, um ein Problem der Gitterwelt zu lösen. Können Sie mir einige Lehrbücher vorschlagen, die mir helfen würden, eine klare Vorstellung …
Ich kann den Zweck der Wichtigkeitsabtastung von Gewichten (IS) in der priorisierten Wiedergabe (Seite 5) nicht verstehen . Es ist wahrscheinlicher, dass ein Übergang aus der Erfahrungswiederholung entnommen wird, je höher seine "Kosten" sind. Nach meinem Verständnis hilft 'IS' dabei, die Verwendung der priorisierten Wiedergabe reibungslos aufzugeben, nachdem wir lange …
Ich bin ein B.Sc-Absolvent. Einer meiner Kurse war "Einführung in das maschinelle Lernen", und ich wollte immer ein persönliches Projekt in diesem Fach machen. Ich habe kürzlich von verschiedenen KI-Trainings gehört, um Spiele wie Mario, Go usw. zu spielen. Welche Kenntnisse muss ich erwerben, um ein einfaches KI-Programm zum Spielen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.