Lecture 10: Iterative LQR & Fundamental Limitations

Prof. Sarah Dean

MW 2:45-4pm
255 Olin Hall

Approximate dynamics & costs
- Linearize $f$ as $A_0,B_0,c_0$
- Approx $c$ as quadratic with $Q_0,R_0,M_0,q_0,r_0,v_0$
LQR policy: $\pi^\star_t(s) = K_t s+ k_t$ where $\{K_t,k_t\}_{t=0}^{H-1} = \mathsf{LQR}(A_0,B_0,c_0, Q_0, R_0, M_0, q_0, r_0, v_0)$
- works as long as states and actions remain close to $s_\star$ and $a_\star$

Recap: Local Control

minimize $\displaystyle\sum_{t=0}^{H-1} c(s_t, a_t)$

s.t. $s_{t+1}=f(s_t, a_t), ~~a_t=\pi_t(s_t)$

$\pi$

Linearization of dynamics around $(s_0,a_0)$
- $f(s,a) \approx f(s_0, a_0) + \nabla_s f(s_0, a_0)^\top (s-s_0) + \nabla_a f(s_0, a_0)^\top (a-a_0)$
- $=A_0s+B_0a+c_0$
where the matrices depend on $(s_0,a_0)$ :
- $A_0 = \nabla_s f(s_0, a_0)^\top$
- $B_0 = \nabla_a f(s_0, a_0)^\top$
- $c_0 = f(s_0, a_0) - \nabla_s f(s_0, a_0)^\top s_0 - \nabla_a f(s_0, a_0)^\top a_0$
Black box access: use finite differencing to compute

Approximate costs around $(s_0,a_0)$ $c(s,a) \approx c(s_0, a_0) + \nabla_s c(s_0, a_0)^\top (s-s_0) + \nabla_a c(s_0, a_0)^\top (a-a_0) + \\ \frac{1}{2} (s-s_0) ^\top \nabla^2_s c(s_0, a_0)(s-s_0) + \frac{1}{2} (a-a_0) ^\top \nabla^2_a c(s_0, a_0)(a-a_0) \\+ (a-a_0) ^\top \nabla_{as}^2 c(s_0, a_0)(s-s_0)$
- $=s^\top Q_0s+a^\top R_0a+a^\top M_0s + q_0^\top s + r_0^\top a+ v_0$
Practical consideration:
- Force $Q_0,R_0$ to be positive definite by setting negative eigenvalues to 0 and adding regularization $\lambda I$
Black box access: use finite differencing to compute