Warum wurde der Buchstabe Q im Namen von Q-learning gewählt?
Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht für policy und für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort ist.
Warum wurde der Buchstabe Q im Namen von Q-learning gewählt?
Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht für policy und für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort ist.
Antworten:
Es tut mir leid, alle zu enttäuschen, aber Q steht für nichts :)
Q-Learning wurde 1989 von Watkins in seiner Doktorarbeit vorgeschlagen , siehe S.96. Das Q in der Gleichung auf dieser Seite wird bei jedem Schritt auf bestimmte Weise aktualisiert. Das Q ist die erwartete Rückkehr von der Aktion in einem gegebenen Zustand, siehe Definition von Q auf S.46. Die Rendite ist im wirtschaftlichen oder spieltheoretischen Sinne, dh mit einer abgezinsten Wahrscheinlichkeit gewichtete Belohnungen, kein Informatikbegriff wie eine Rendite von einer Funktion.
Beachten Sie, dass er bereits P für die Wahrscheinlichkeit und R für die Belohnung verwendet hat und Q für die Rückgabe genommen hat. Das ist es. Es gibt keine tiefere Bedeutung für die Wahl eines Buchstabens Q.