Ich habe Schwierigkeiten, eine Erklärung dafür zu finden, warum Standard-Q-Learning dazu neigt, Q-Werte zu überschätzen (was durch die Verwendung von doppeltem Q-Learning behoben wird). Die einzigen Quellen, die ich gefunden habe, erklären nicht genau, warum diese Überschätzung auftritt.
Zum Beispiel sagt der Wikipedia-Artikel über Q-Learning:
Da der maximale angenäherte Aktionswert im Q-Learning-Update verwendet wird, kann Q-Learning in lauten Umgebungen manchmal die Aktionswerte überschätzen und das Lernen verlangsamen.
Was bedeutet das? Ich verstehe Q-Learning, aber nicht das oben genannte. Warum führt die Verwendung des maximalen q-Werts zu einer Überschätzung?
Vielen Dank!