Wie funktioniert die Neuheitensuche?

16

In diesem Artikel behauptet der Autor, dass die Steuerung der Evolution allein durch Neuheit (ohne explizite Ziele) Probleme noch besser lösen kann als die Verwendung expliziter Ziele. Mit anderen Worten, die Verwendung eines Neuheitsmaßes als Fitnessfunktion für einen genetischen Algorithmus funktioniert besser als eine zielgerichtete Fitnessfunktion. Wie ist das möglich?

genetic-algorithms

— rcpinto
quelle

7

Wie in einer Antwort auf diese AI SE-Frage erläutert , sind GAs eher "Befriedigende" als "Optimierer" und neigen dazu, "abgelegene" Regionen des Suchraums nicht zu erkunden. Vielmehr tendiert die Bevölkerung dazu, sich in Regionen zu sammeln, die gemäß der Fitnessfunktion „ziemlich gut“ sind.

Im Gegensatz dazu glaube ich, dass Neuheit eine Art dynamische Fitness bietet, die dazu neigt, die Bevölkerung von zuvor entdeckten Gebieten fernzuhalten.

— NietzscheanAI
quelle

6

Die Neuheitensuche wählt durch eine domänenabhängige Definition der Neuheit nach "neuartigem Verhalten" aus. Zum Beispiel könnte eine Neuheit in einer Labyrinthlösungsdomäne "Unterschied der erkundeten Route" sein. Schließlich werden Netzwerke gefunden, die jede mögliche Route durch das Labyrinth nehmen, und Sie können dann die schnellste auswählen. Dies würde weitaus besser funktionieren als ein naives "Ziel", wie die Entfernung zum Ziel, was leicht zu lokalen Optima führen könnte, die das Labyrinth niemals lösen.

Von der Aufgabe von Zielen: Evolution durch die Suche nach Neuheit allein (Schwerpunkt Mine):

Bei der Neuheitensuche wird anstelle der Messung des Gesamtfortschritts mit einer traditionellen Zielfunktion ein Maß für die Verhaltensneuheit verwendet, das als Neuheitsmetrik bezeichnet wird. Tatsächlich führt eine Suche, die von einer solchen Metrik geleitet wird, explizit das durch, was die natürliche Evolution passiv tut, dh allmählich akkumulierende neue Formen, die die Komplexitätsleiter hinaufsteigen.
Beispielsweise können in einer Biped-Fortbewegungsdomäne anfängliche Versuche einfach fehlschlagen. Die Neuheitsmetrik würde es belohnen, einfach auf eine andere Weise herunterzufallen, unabhängig davon, ob sie näher am objektiven Verhalten liegt oder nicht. Im Gegensatz dazu kann eine objektive Funktion das Fallen am weitesten explizit belohnen, was wahrscheinlich nicht zum endgültigen Ziel des Gehens führt und somit ein trügerisches lokales Optimum darstellt. Im Gegensatz dazu wird bei der Suche nach Neuheiten eine Reihe von Instanzen beibehalten, die die neuesten Entdeckungen darstellen. Die weitere Suche springt dann von diesen repräsentativen Verhaltensweisen ab. Nachdem einige Möglichkeiten zum Fallen entdeckt wurden, besteht die einzige Möglichkeit, belohnt zu werden, darin, ein Verhalten zu finden, das nicht sofort fällt . Auf diese Weise steigt die Komplexität des Verhaltens von unten nach oben.Um etwas Neues zu tun, müsste der Zweibeiner schließlich eine gewisse Strecke erfolgreich laufen, obwohl dies kein Ziel ist .

— mikimisieren
quelle