Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu erreichen?

Der Titel dieses Artikels lautet zum Beispiel: "Sample Efficient Actor-Critic with Experience Replay".

Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu erreichen?

reinforcement-learning statistical-ai importance-sampling

— Gokul NC
quelle

Antworten:

Ein Algorithmus ist sampleeffizient, wenn er aus jedem Sample das Beste herausholt. Stellen Sie sich vor, Sie lernen, wie man zum ersten Mal PONG spielt. Als Mensch bräuchten Sie nur wenige Sekunden, um anhand weniger Beispiele zu lernen, wie man das Spiel spielt. Dies macht Sie sehr "sampleeffizient". Moderne RL - Algorithmen müssten sehen $100$ tausend Mal mehr Daten als Sie so sind sie, relativ, Probe ineffizient.

Im Fall von außerbetrieblichem Lernen sind nicht alle Stichproben nützlich, da sie nicht Teil der Verteilung sind, an der wir interessiert sind. Stichproben von Bedeutungist eine Technik zum Filtern dieser Proben. Die ursprüngliche Verwendung bestand darin, eine Verteilung zu verstehen und gleichzeitig nur Proben aus einer anderen, aber verwandten Verteilung zu entnehmen. In RL tritt dies häufig auf, wenn Sie versuchen, etwas außerhalb der Richtlinien zu lernen. Das heißt, dass Ihre Beispiele von einer Verhaltensrichtlinie erstellt wurden, Sie jedoch eine Zielrichtlinie erlernen möchten. Daher muss gemessen werden, wie wichtig / ähnlich die generierten Stichproben für Stichproben sind, die die Zielrichtlinie möglicherweise erstellt hat. Man entnimmt also Stichproben aus einer gewichteten Verteilung, die diese "wichtigen" Stichproben begünstigt. Es gibt jedoch viele Methoden, um das Wesentliche zu charakterisieren, und ihre Wirksamkeit kann je nach Anwendung unterschiedlich sein.

Der gebräuchlichste Ansatz für diese außerhalb der Richtlinie liegende Stichprobenauswahl besteht darin, ein Verhältnis zu ermitteln, wie wahrscheinlich es ist, dass eine Stichprobe von der Zielrichtlinie generiert wird. Das Paper Über einen Zusammenhang zwischen der Stichprobe von Bedeutung und dem politischen Gradienten des Wahrscheinlichkeitsverhältnisses (2010) von Tang und Abbeel befasst sich mit diesem Thema.

— Jaden Travnik
quelle

Danke noch einmal. Grundfrage: ..finding a ratio of how likely a sample is to be generated by the target policyWie entscheiden wir das, wenn wir nur die Verhaltenspolitik kennen? Müssen wir nicht eine Zielrichtlinie finden?

— Gokul NC

Wir können dies leicht abschätzen, indem wir das Verhältnis der Zielrichtlinie pi ermitteln, indem wir diese Aktion mit der Verhaltensrichtlinie mu vergleichen. Somit ist das Verhältnis P = pi (s, a) / mu (s, a), wobei a und s die von mu bzw. dem Zustand gewählte Wirkung sind.

— Jaden Travnik

Meine Frage war, woher bekommen wir pi (s, a), während wir nur mu (s, a) haben? Das heißt, woher beziehen wir die Zielrichtlinie, während es unser Ziel ist, sie zu finden?

— Gokul NC

Ihre Zielrichtlinie wird nach dem Zufallsprinzip initialisiert. Sie muss nur aktualisiert werden.

— Jaden Travnik

Die Stichprobeneffizienz bezeichnet die Menge an Erfahrung, die ein Agent / Algorithmus in einer Umgebung erzeugen muss (z. B. die Anzahl der durchgeführten Aktionen und die Anzahl der resultierenden Zustände + die beobachteten Belohnungen), um ein bestimmtes Leistungsniveau zu erreichen. Intuitiv könnte man sagen, ein Algorithmus ist sampleeffizient, wenn er jede einzelne Erfahrung, die er generiert, gut nutzt und seine Richtlinien schnell verbessert. Ein Algorithmus hat eine schlechte Probeneffizienz, wenn er aus vielen Erfahrungswerten nichts Nützliches lernt und sich nicht schnell verbessert.

Die Erklärung der Stichprobenbedeutung in Jadens Antwort scheint größtenteils richtig zu sein.

In dem Artikel in Ihrer Frage ist die Wichtigkeitsprobe eine der Zutaten, die eine korrekte Kombination von 1) Lernen aus mehrstufigen Trajektorien und 2) Erfahrungswiederholungspuffern ermöglicht. Diese beiden Dinge waren zuvor nicht einfach zu kombinieren (da Mehrschritt-Rückgaben ohne wichtige Stichproben nur beim Lernen innerhalb der Richtlinie korrekt sind und alte Stichproben in einem Wiedergabepuffer von einer alten Richtlinie generiert wurden, was bedeutet, dass das Lernen von ihnen außerhalb der Richtlinie erfolgt) ). Beide Dinge verbessern die Probeneffizienz individuell, was bedeutet, dass es auch für die Probeneffizienz von Vorteil ist, wenn sie noch irgendwie kombiniert werden können.

— Dennis Soemers
quelle