Denken wir an folgende Situationen:
- Sie bringen einem Roboter das Tischtennisspielen bei
- Sie unterrichten ein Programm zum Berechnen der Quadratwurzel
- Sie unterrichten ein Kind in der Schule Mathe
Diese Situationen (dh betreutes Lernen) und viele andere haben (unter anderem) eines gemeinsam: Der Lernende erhält eine Belohnung basierend auf seiner Leistung.
Meine Frage ist, wie soll die Belohnungsfunktion aussehen? Gibt es eine "beste" Antwort oder kommt es auf die Situation an? Wie bestimmt man, wenn es von der Situation abhängt, welche Belohnungsfunktion zu wählen ist?
Nehmen Sie zum Beispiel die folgenden drei Belohnungsfunktionen:
- Funktion
A
sagt:- ab einem bestimmten punkt sind schlecht oder schlechter gleich: man bekommt nichts
- Es gibt einen deutlichen Unterschied zwischen fast gut und perfekt
- Funktion
B
sagt:- Sie werden linear proportional zu Ihrer Leistung belohnt
- Funktion
C
sagt:- Wenn Ihre Leistung schlecht ist, ist es in Ordnung, Sie haben Ihr Bestes gegeben: Sie erhalten immer noch eine Belohnung
- Es gibt nicht viel Unterschied zwischen perfekt und fast gut
Intuitiv würde ich denken A
, dass der Roboter sehr fokussiert ist und das genaue Muster lernt, aber dumm wird, wenn er mit ähnlichen Mustern umgeht, während C
er anpassungsfähiger wird, um Änderungen auf Kosten des Verlusts an Perfektion vorzunehmen.
Man könnte auch an komplexere Funktionen denken, um nur einige zu zeigen:
Woher weiß man also, welche Funktion zu wählen ist? Ist es bekannt , von welchem Verhalten hervorgehen würde (zumindest) den Grund A
, B
und C
Funktionen?
Eine Nebenfrage ist, ob dies für Roboter und menschliche Kinder grundlegend anders ist.
A
, könnte der Roboter bei der genauen Aufgabe extrem gut werden, aber bei Aufgaben, die ähnlich, aber leicht unterschiedlich sind, schrecklich. Das ist nur meine Vermutung.
X
hat mir das beste Ergebnis gebracht."