Lösen der Hamilton-Jacobi-Bellman-Gleichung; notwendig und ausreichend für die Optimalität?

Man betrachte die folgende Differentialgleichung wobei der Zustand und die Steuervariable ist. Die Lösung ist gegeben durch wobei der angegebene Anfangszustand ist.

\begin{aligned} \dot{x} (t) = f (x (t), u (t)) \end{aligned}

$\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}$

x

$x$

u

$u$

\begin{aligned} x (t) = x_{0} + \int_{0}^{t} f (x (s), u (s)) d s . \end{aligned}

$\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}$

x_{0} := x (0)

$x_0:=x(0)$

Betrachte nun das folgende Programm wobei die Zeitpräferenz bezeichnet, der Wert ist und eine objektive Funktion. Eine klassische wirtschaftliche Anwendung ist das Ramsey-Cass-Koopmans-Modell für optimales Wachstum. Die Hamilton-Jacobi-Bellman-Gleichung ist gegeben durch

\begin{aligned} V (x_{0}) : = max_{u} \int_{0}^{\infty} e^{- ρ t} F (x (t), u (t)) d t \\ s . t . & \dot{x} (t) = f (x (t), u (t)) \\ x (0) = x_{0} \end{aligned}

$\begin{align} &V(x_0) := \max_u \int^\infty_0 e^{-\rho t}F(x(t),u(t))dt\\ s.t.~&\dot x(t)=f(x(t),u(t))\\ &x(0) = x_0 \end{align}$

ρ > 0

$\rho > 0$

V (\cdot)

$V(\cdot)$

F (\cdot)

$F(\cdot)$

\begin{aligned} ρ V (x) = max_{u} [F (x, u) + V^{'} (x) f (x, u)], \forall t \in [0, \infty) . \end{aligned}

$\begin{align} \rho V(x)=\max_u [F(x,u) + V'(x)f(x,u)],\quad \forall t\in[0,\infty). \end{align}$

Angenommen, ich habe die HJB für gelöst $V$ . Die optimale Steuerung ist dann gegeben durch

\begin{aligned} u^{*} = \arg max_{u} [F (x, u) + V^{'} (x) f (x, u)] . \end{aligned}

$\begin{align} u^*=\arg\max_u [F(x,u) + V'(x)f(x,u)]. \end{align}$ Ich erhalte optimale Flugbahnen für den Zustand und die Kontrolle

{(x^{*} (t), u^{*} (t)) : t \in [0, \infty)}

$\{(x^*(t),u^*(t)):t\in[0,\infty)\}$ .

Der Wiki- Artikel sagt

... aber wenn über den gesamten Zustandsraum gelöst, ist die HJB-Gleichung eine notwendige und ausreichende Bedingung für ein Optimum.

In Bertsekas (2005) Dynamic Programming and Optimal Control , Band 1, 3. Aufl., In Proposition 3.2.1, stellt er fest, dass das Lösen nach $V$ die optimale Cost-to-Go-Funktion und das zugehörige $u^*$ optimal ist. Er erklärt es jedoch ausdrücklich als einen Suffizienzsatz.

Eigentlich möchte ich nur sicherstellen, dass ich mich nicht mit zusätzlichen Optimalitätsbedingungen befassen muss, wenn ich die HJB gelöst und die zugehörigen Zustands- und Steuerbahnen wiederhergestellt habe.

Lösung

Ich versuche

Ich denke, ich konnte notwendige Bedingungen aus dem Maximalprinzip durch die HJB-Gleichung selbst ableiten.

Definiere das Hamilton'sche

\begin{aligned} H (x, u, V^{'} (x)) : = F (x, u) + V^{'} (x) f (x, u) \end{aligned}

$\begin{align} H(x,u,V'(x)) := F(x,u) + V'(x)f(x,u) \end{align}$

dann haben wir

\begin{aligned} ρ V (x) = max_{u} H (x, u, V^{'} (x)) \end{aligned}

$\begin{align} \rho V(x)=\max_u H(x,u,V'(x)) \end{align}$

das ist

\begin{aligned} ρ V (x) = H (x, u^{*}, V^{'} (x)) . \end{aligned}

$\begin{align} \rho V(x)= H(x,u^*,V'(x)). \end{align}$

Definieren Sie eine beliebige Funktion mit . Fixiere nun $q:[0,\infty)\to\mathbb{R}$ $q(0)=\lim_{t\to\infty} q(t)=0$

\begin{aligned} x = x^{*} + ε q \end{aligned}

$\begin{align} x = x^*+\varepsilon q \end{align}$

Dabei ist ein Parameter. Fügen Sie den Term in den maximierten Hamilton-Ausdruck ein, der $\varepsilon\in\mathbb{R}$

\begin{aligned} ρ V (x^{*} + ε q) = H (x^{*} + ε q, u^{*}, V^{'} (x^{*} + ε q)) . \end{aligned}

$\begin{align} \rho V(x^*+\varepsilon q)= H(x^*+\varepsilon q,u^*,V'(x^*+\varepsilon q)). \end{align}$

Bei wir die optimale Lösung. Also differenziere über , um eine Bedingung erster Ordnung $\varepsilon = 0$ $\varepsilon$

\begin{aligned} ρ V^{'} q = H_{x} q + H_{V^{'}} V^{″} q . \end{aligned}

$\begin{align} \rho V'q = H_x q + H_{V'}V''q. \end{align}$

Definieren Sie nun die adjungierte Variable mit

\begin{aligned} λ = V^{'} (x) . \end{aligned}

$\begin{align} \lambda = V'(x). \end{align}$

Differenziere über die Zeit

\begin{aligned} \dot{λ} = V^{″} \dot{x} . \end{aligned}

$\begin{align} \dot \lambda = V''\dot x. \end{align}$

und beachte, dass

\begin{aligned} H_{V^{'}} = f (x, u) = \dot{x} . \end{aligned}

$\begin{align} H_{V'} = f(x,u) = \dot x. \end{align}$

Stecke alles in den FOC, was

\begin{aligned} ρ λ = H_{x} + \dot{λ} . \end{aligned}

$\begin{align} \rho \lambda = H_x + \dot \lambda. \end{align}$

Das ist es ziemlich genau. Das Lösen des HJB ist also in der Tat notwendig und ausreichend (hier weggelassen) für die Optimalität. Jemand sollte es zum Wiki hinzufügen. Könnte Zeit sparen für Leute, die über solche Probleme nachdenken (wird meiner Meinung nach nicht viel sein).

Es fehlt jedoch die Transversalitätsbedingung .

\begin{aligned} lim_{t \to \infty} e^{- ρ t} λ (t) = 0 \end{aligned}

$\begin{align} \lim_{t\to\infty} e^{-\rho t}\lambda(t) = 0 \end{align}$

II Versuch

Definiere die Auszahlungsfunktion

\begin{aligned} J (u) : = \int_{0}^{\infty} e^{- ρ t} F (x, u) d t \end{aligned}

$\begin{align} J(u):=\int^\infty_0 e^{-\rho t}F(x,u)dt \end{align}$

Beachten Sie, dass durch Definition von . Addiere den neutralen Term zu der Auszahlungsfunktion

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ [f (x, u) - \dot{x}] d t = 0 \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda[f(x,u) - \dot x]dt} = 0 \end{align}$

\dot{x} = f (x, u)

$\dot x = f(x,u)$

\begin{aligned} J (u) & = \int_{0}^{\infty} e^{- ρ t} [F (x, u) + λ f (x, u)] d t - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \\ = \int_{0}^{\infty} e^{- ρ t} H (x, u, λ) - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \end{aligned}

$\begin{align} J(u)&=\int^\infty_0 e^{-\rho t}[F(x,u)+\lambda f(x,u)]dt - \int^\infty_0{e^{-\rho t}\lambda\dot xdt}\\ &=\int^\infty_0 e^{-\rho t}H(x,u,\lambda) - \int^\infty_0{e^{-\rho t}\lambda\dot xdt} \end{align}$

Die Integration von Teilen des richtigen Terms und der rhs ergibt

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t = [e^{- ρ t} λ (t) x (t)]_{0}^{\infty} - \int_{0}^{\infty} e^{- ρ t} x (\dot{λ} - ρ λ) d t \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda\dot xdt} = [e^{-\rho t}\lambda(t)x(t)]^\infty_0 - \int^\infty_0{e^{-\rho t}x(\dot \lambda-\rho\lambda)dt} \end{align}$

Ersetzen Sie diesen Term durch

\begin{aligned} J (u) = \int_{0}^{\infty} e^{- ρ t} [H (x, u, λ) + x (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) x (t) + λ (0) x (0) \end{aligned}

$\begin{align} J(u)=\int^\infty_0 e^{-\rho t}[H(x,u,\lambda) + x(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)x(t) + \lambda(0)x(0) \end{align}$

Definiere

\begin{aligned} x & = x^{*} + ε q \\ u & = u^{*} + ε p \end{aligned}

$\begin{align} x &= x^*+\varepsilon q\\ u &= u^*+\varepsilon p \end{align}$

was gibt

\begin{aligned} J (ε) = \int_{0}^{\infty} e^{- ρ t} [H (x^{*} + ε q, u^{*} + ε p, λ) + (x^{*} + ε q) (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) [x^{*} (t) + ε q (t)] + λ (0) x (0) \end{aligned}

$\begin{align} J(\varepsilon)=\int^\infty_0 e^{-\rho t}[H(x^*+\varepsilon q,u^*+\varepsilon p,\lambda) + (x^*+\varepsilon q)(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)[x^*(t)+\varepsilon q(t)] + \lambda(0)x(0) \end{align}$

FOC für maximales $J_\varepsilon = 0$

\begin{aligned} J_{ε} = \int_{0}^{\infty} e^{- ρ t} [H_{x} q + H_{u} p + q (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) q (t) = 0 \end{aligned}

$\begin{align} J_\varepsilon=\int^\infty_0 e^{-\rho t}[H_x q + H_u p + q(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)q(t) = 0 \end{align}$

Da und sind, müssen wir $q$ $p$

\begin{aligned} H_{u} & = 0 \\ H_{x} & = ρ λ - \dot{λ} \\ lim_{t \to \infty} e^{- ρ t} λ (t) & = 0 \end{aligned}

$\begin{align} H_u &= 0\\ H_x &= \rho\lambda - \dot \lambda\\ \lim_{t\to\infty}e^{-\rho t}\lambda(t) &= 0 \end{align}$

mathematical-economics reference-request dynamic-programming

— ahnungslos
quelle

Haben Sie die notwendigen und ausreichenden Voraussetzungen bereits identifiziert?

— Jamzy

In welchem wirtschaftlichen Kontext stellt sich dies ein?

— Stan Shunpike

Ramsey-Modell zum Beispiel cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf

— ahnungslos

Ich denke, dass dieser Thread besser für math.stackexchange.com geeignet ist, da er nicht wirklich mit econ verbunden ist. Ein Mod darf es übertragen.

— ahnungslos

Ich bin mir nicht sicher, was hier gefragt wird: Wenn per Bertsekas das Lösen von HJB ausreicht , dann muss man sich nicht "um zusätzliche Optimalitätsbedingungen sorgen". Das "nur ausreichend" gegen "notwendig und ausreichend" würde entstehen, wenn HJB nicht gelöst wurde - in diesem Fall würde man sagen "das bedeutet nicht, dass es keine Lösung gibt". Übrigens sind Ihre Versuche I und II hier wertvolle Inhalte - der erste zeigt einen Link zwischen HJB und Optimal Control, der zweite zeigt, wie die Optimal Control-FOCs abgeleitet werden können.

— Alecos Papadopoulos

(Dies sollte vielleicht als Kommentar angesehen werden.)

Wenn Sie die HJB-Gleichung gelöst haben, ist es ausreichend, die optimale Lösung zu erhalten. Sie müssen sich also nicht "mit anderen Optimalitätsbedingungen befassen", von denen ich glaube, dass sie Ihre Frage beantworten.

Es scheint, dass Sie über die "notwendige" Komponente des Theorems besorgt sind. Die Notwendigkeitsseite der Aussage lautet wie folgt: Wenn es eine optimale Lösung gibt, muss es eine Lösung für die HJB-Gleichung geben.

Ich habe mit diesem speziellen Problem nicht gearbeitet, aber die Antwort im Allgemeinen lautet, dass wir keine differenzierbare Funktion V erwarten. Daher haben wir keine Lösung für die angegebene Gleichung. Stattdessen müssen wir uns verallgemeinerte Ableitungen ansehen und die HJB-Gleichung in eine Ungleichung umwandeln. In diesem Fall erhalten Sie möglicherweise eine "viskose Lösung". Wenn wir auf die Verwendung von verallgemeinerten Derivaten ausdehnen, kann möglicherweise nachgewiesen werden, dass eine solche Lösung immer existiert. Wenn Sie einen Blick auf Ihre Beweise werfen, helfen sie nicht bei den notwendigen Bedingungen, da Sie von einer Differenzierbarkeit ausgehen.

— Brian Romanchuk
quelle