Es gibt viele Ansätze, die Sie dafür wählen könnten. Es könnte möglich sein, ein realistisches künstliches Analogon für Angst zu erstellen, wie es bei Tieren biologisch implementiert ist, aber die Angstreaktion eines echten Tieres ist mit einer Menge verbunden, die in einfacheren KI-Bots, die derzeit verfügbar sind, nicht zutreffen würde. Zum Beispiel wird ein Tier, das in einen Zustand der Angst gerät, normalerweise Hormone verwenden, um Veränderungen in seinem Körper zu signalisieren, was den Ressourcenverbrauch und das Eingehen von Risiken begünstigt ("Kampf oder Flucht").
Beim grundlegenden Lernen der Verstärkung müsste das neuronale Netzwerk nicht direkt entscheiden, ob ein "Angstmodus" aktiviert werden soll. Stattdessen können Sie ein Design im Agenten und im Lernalgorithmus verwenden, um aus seltenen, aber signifikanten Ereignissen zu lernen. Hier einige Ideen:
Erleben Sie die Wiederholung. Möglicherweise tun Sie dies bereits im Pacman-Szenario, wenn Sie DQN oder ähnliches verwenden. Das Speichern des Zustandsübergangs und der Belohnung, die eine große positive oder negative Belohnung verursacht haben, und das wiederholte Lernen daraus sollten Ihre Besorgnis ausgleichen
Priorisiertes Kehren. Sie können größere Unterschiede zwischen vorhergesagter und tatsächlicher Belohnung verwenden, um die Abtastung aus Ihrem Wiedergabespeicher auf wichtige Ereignisse und solche, die eng damit verbunden sind, zu beschränken.
Planung. Mit einem Vorhersagemodell - möglicherweise basierend auf abgetasteten Übergängen (Sie können den Erfahrungswiedergabespeicher dafür wiederverwenden) oder einem trainierten Netzwerk zur Vorhersage von Zustandsübergängen - können Sie durch Simulation mehrere Schritte vorausschauen. Es gibt auch eine starke Beziehung zwischen RL und Vorausschau-Planung, sie sind sehr ähnliche Algorithmen. Der Unterschied besteht darin, welche Zustände und Aktionen berücksichtigt werden und ob sie simuliert oder erlebt werden. Erfahrungswiederholungen verwischen hier die Grenze - sie können als Lernen aus dem Gedächtnis oder als Verbesserung der Vorhersagen für die Planung bezeichnet werden. Planung hilft, indem Entscheidungen optimiert werden, ohne dass Erfahrungen wiederholt werden müssen - eine Kombination aus Planung und Lernen kann weitaus leistungsfähiger sein als isoliert.
Intelligentere Auswahl von Erkundungsaktionen. Epsilon-gierig, bei dem Sie entweder eine gierige Aktion ausführen oder eine völlig zufällige Aktion ausführen, ignoriert völlig, wie viel Sie möglicherweise bereits über alternative Aktionen und deren relativen Wert gelernt haben. Sie können so etwas wie Upper Confidence Bound mit einem wertbasierten Agenten verwenden.
Erhöhen Sie in einer deterministischen Welt die Stapelgröße für Lernen und Planen, da Sie darauf vertrauen können, dass Sie alles darüber wissen, wenn ein Übergang einmal gelernt wird.
Sie müssen in jeder Umgebung experimentieren. Sie können Lernagenten erstellen, die konservativer sind, wenn es darum geht, Gebiete mit geringer Belohnung zu erkunden. Wenn die Umgebung jedoch so ist, dass Risiken eingegangen werden müssen, um die besten Belohnungen zu erzielen (was bei Spielen häufig der Fall ist), ist es möglicherweise nicht optimal für die Lernzeit, einen "schüchternen" Agenten zu haben. Zum Beispiel in Ihrem Beispiel von Pacman sollten manchmal die Geister vermieden werden, manchmal sollten sie verfolgt werden. Wenn der Agent anfangs eine starke Abneigung erlernt hat, kann es lange dauern, diese zu überwinden und zu lernen, sie nach dem Essen eines Power-Ups zu verfolgen.
Für Ihr Beispiel der Spinne als Konstrukteur des Experiments wissen Sie dann, dass der Biss jedes Mal schlecht ist und dass der Agent ihn so weit wie möglich vermeiden muss. Für die meisten RL-Algorithmen gibt es kein solches Wissen, außer durch Erfahrung. Ein MDP-Weltmodell muss nicht dem gesunden Menschenverstand entsprechen. Es kann sein, dass ein Spinnenbiss in 90% der Fälle schlecht (-10 Belohnung) und in 10% der Fälle gut (+1000 Belohnung) ist. Der Agent kann dies nur feststellen, indem er mehrmals gebissen wird. . . RL beginnt normalerweise nicht mit einem System, um Annahmen über solche Dinge zu treffen, und es ist unmöglich, eine allgemeine Regel für alle möglichen MDPs zu erstellen. Stattdessen können Sie für ein einfaches RL-System in Betracht ziehen, Hyperparameter zu ändern oder sich auf wichtige Ereignisse zu konzentrieren, wie oben vorgeschlagen. Außerhalb eines grundlegenden RL-Systems kann es sinnvoll sein, andere Dinge zu replizieren.