Gradient descent

with a general cost

Flavien Léger

joint works with Pierre-Cyril Aubin-Frankowski,

Gabriele Todeschi, François-Xavier Vialard

Introduction

Minimize

using a function \(c(x,y)\) as a “movement limiter”

⏵ Explicit minimizing movement scheme based on \(c(x,y)\)

⏵ Even without differentiability

⏵ Identify convexity for convergence

Ex 1: \(\displaystyle x_{n+1}\in\argmin_{x\in \mathbb{R}^d}f(x)+\frac{L\lVert x-x_n\rVert^2}{2} \quad\longrightarrow \quad x_{n+1}\in\argmin_{x\in X}f(x)+c(x,x_n)\)

Ex 2:

x_{n+1}-x_n=-\frac1L\nabla f(x_n)\quad \longrightarrow\quad ?

f\colon X\to\mathbb{R}\cup\{+\infty\}

Gradient descent with a general cost

If there exists \(h\) such that \(f(x)=\inf_{y\in Y}c(x,y)+h(y)\) then

\[\inf_{x\in X}f(x)=\inf_{x\in X,y\in Y}\underbrace{c(x,y)+f^c(y)}_{\phi(x,y)}\]

Algorithm GDGC: alternating minimization of \(\phi(x,y)\)

Given: \(X,Y\) arbitrary sets

c\colon X\times Y\to\mathbb{R}\cup\{+\infty\}

f\colon X\to\mathbb{R}\cup\{+\infty\}

1. Formulation

2. Convergence theory

3. Direct applications

c-concavity

Definition. \(f\) is c-concave if there exists \(h\colon Y\to \mathbb{R}\cup\{+\infty\}\) s.t. \[f(x)=\inf_{y\in Y}c(x,y)+h(y).\]

Smallest such \(h\) is the c-transform \(f^c(y)=\sup_{x\in X} f(x)-c(x,y).\)

f(x)\leq c(x,y)+f^c(y)

f(x)=\inf_{y\in Y} c(x,y)+f^c(y)

c-concave \(\iff\)

c-concavity

\(f\) is \(c\)-concave

\(f\) is not \(c\)-concave

\(f\) is \(c\)-concave \(\iff \nabla^2 f\preccurlyeq L\, I_{d\times d}\)

Example. \(X=Y=\mathbb{R}^d\)

\(c(x,y)+f^c(y)\)

\(f\)

c(x,y)=\frac{L}{2}\lVert x-y\rVert^2

Alternating minimization of the surrogate

\(y_{n+1} = \argmin_{y}\phi(x_n,y)\)

\(y\)-update ↔ Majorize step

\(x_{n+1} = \argmin_{x}\phi(x,y_{n+1})\)

\(x\)-update ↔ Minimize step

Family of majorizing functions \(\phi(x,y)\)

\(\phi(\cdot,y_{n+1})\)

Differentiable setting

Explicit algorithm

-\nabla_xc(x_n,y_{n+1})=-\nabla f(x_n)

\(X,Y\) finite-dimensional manifolds,

twisted \(c\in C^1(X\times Y)\),

\(f\in C^1(X)\) c-concave

\begin{aligned} y_{n+1} &= \argmin_{y\in Y} c(x_n,y)+f^c(y)\\ x_{n+1} &= \argmin_{x\in X} c(x,y_{n+1})+f^c(y_{n+1}) \end{aligned}

\nabla_xc(x_{n+1},y_{n+1})=0

Important examples

\(\,\,\,c(x,y)=\underbrace{u(x)-u(y)-\langle\nabla u(y),x-y\rangle}_{\qquad\quad\eqqcolon \,u(x|y)} \longrightarrow\) mirror descent

\(\,\,\,c(x,y)=u(y|x) \longrightarrow\) natural gradient descent

\(\,\,\,c(x,y)=\frac{L}{2}d_M^2(x,y)\longrightarrow\) Riemannian gradient descent

Newton

\[\nabla u(x_{n+1})-\nabla u(x_n)=-\nabla f(x_n)\]

\[x_{n+1}-x_n=-\nabla^2 u(x_n)^{-1}\nabla f(x_n)\]

\[x_{n+1}=\exp_{x_n}(-\frac{1}{L}\nabla f(x_n))\]

\(\,\,\,c(x,y)=\frac{L}{2}\lVert x-y\rVert^2 \longrightarrow\) standard gradient descent

\[x_{n+1}-x_n=-\frac1L\nabla f(x_n)\]

Summary

\inf_{x\in X} f(x)=\inf_{x\in X,y\in Y} c(x,y)+f^c(y)

GDGC: Alternating Minimization of \(c(x,y)+f^c(y)\)

If \(f\) is c-concave:

Nonsmooth formulation: \(X,Y\) arbitrary sets and \(c\colon X\times Y\to\mathbb{R}\cup\{+\infty\}\) (essentially) arbitrary

Differentiable formulation: if \(X,Y\) smooth manifolds and \(c\in C^1(X\times Y)\) then

\begin{aligned} -\nabla_xc(x_n,y_{n+1})&=-\nabla f(x_n)\\ \nabla_xc(x_{n+1},y_{n+1})&=0 \end{aligned}

Differential geometry based on the cost \(c(x,y)\)

Gives a meaning to doing an explicit method without regularity