Ich habe einige Fragen zu den Beweisen in Anhang A von Sannikov (2007), Spiele mit unvollständig beobachtbaren Aktionen in kontinuierlicher Zeit .
- Wenn er in Lemma 4 die Lipschitz-Kontinuität von in , leitet er eine Hilfsfunktion , nimmt ihre Ableitung und begrenzt diese Ableitung (Seite 41). Wie bekommt er das gebunden? Was ist? Wie kann er den Faktor mit und binden ?θ F ( θ ′ ) | V | β 1 β 2
- Warum garantiert in Satz 4 die Lipschitz-Kontinuität des Ziels die Kontinuität der Wertfunktion? Folgt dies nur aus dem Maximalsatz ? Wenn ja, warum brauchten wir Lipschitz-Kontinuität?
- Auch in Satz 4: Warum garantiert die positive Anfangskrümmung, dass sie positiv bleibt?
- Wie garantiert die Idempotenz von , dass ?ˉ Q ≥ 1