Bedeutung von 'Monte Carlo' in diesem Satz


7

Dies ist aus einem Artikel 'Algorithmen für inverses Verstärkungslernen' von Ng, Russell (2001)

Wir gehen davon aus, dass wir in der Lage sind, Trajektorien im MDP (ab dem Anfangszustand ) unter der optimalen Richtlinie oder unter einer Richtlinie unserer Wahl zu simulieren . Für jede Richtlinie , die wir berücksichtigen werden (einschließlich der optimalen), benötigen wir eine Methode zum Schätzen von für jede Einstellung der 's. Dazu führen wir zunächst Trajektorien unter .s0πVπ(s0)αim Monte Carlo_π

Entschuldigung für das lange Zitat. Was bedeutet "Monte Carlo" im letzten Satz?

Mein erster Gedanke wäre, die Simulation immer wieder mal auszuführen . Aber wenn ich es überdenke, könnte ich mich sehr irren.m

Antworten:


10

Was Ng und Russell zu sagen scheinen, ist, dass sie für jede Richtlinie "mögliche" Ergebnisse für Prozesse simulieren , die bei Punkt . Mit "Trajektorien" scheinen sie die möglichen zeitlichen Entwicklungen simulierter Prozesse zu meinen - verschiedene mögliche Szenarien, die durch Simulation erzeugt werden. Sie hatten also Recht, Monte Carlo steht hier für "Simulation" (siehe auch diesen Thread ).πms0


0

Monte Carlo bedeutet hier einfach, Stichproben zu verwenden, um die Werte zu schätzen. Praktisch bedeutet dies, eine Folge von (Zustands-, Aktions-) Paaren zu sammeln, dh die Flugbahn unter Verwendung einer beliebigen Richtlinie, und daraus können Sie relevante Größen wie Vusw. Berechnen

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.