Carol Cuesta-Lazaro

IAIFI Fellow - Institute for Artificial Intelligence and Fundamental Interactions (MIT)

Deep Generative AI:

Inteligencia Artificial y sus aplicaciones en Física

Latam

Summer School

Las condiciones iniciales del Universo

Laws of gravity

Distribucion 3D de galaxias

Cuales son las CIs de NUESTRO Universo?

non-Gaussianidad primordial?

Inflacion

Galaxy formation

Distribucion 3D de materia oscura

Modificar GR en escalas grandes?

Como se forman las galaxias?

jerarquia de las masas de neutrinos?

AI y Fisica

  • Que son los modelos generativos?
  • Mis favoritos: likelihood-based
    • Normalising flows
    • Variational Autoencoders
    • Variational Inference
    • Diffusion models

Generar vs Discriminar

p(x)
p(y|x)
p(x|y) = \frac{p(y|x)p(x)}{p(y)}
p(x|y)

https://vitalflux.com/generative-vs-discriminative-models-examples/

El salón de la Fama

A teddy bear wearing a motorcycle helmet and cape is standing in front of Loch Awe with Kilchurn Castle behind him driving a speed boat near the Golden Gate Bridge

 

https://parti.research.google​​​​​​​

Modelos generativos en Fisica

Emular procesos complejos en dimensiones altas

x \sim p(x|y)
y = \{ \Omega_{cdm}, \sigma_8, ... \}

arXiv:2206.04594

Super resolución

arxiv:2010.06608

Modelos generativos en Fisica

Detectar anomalias

arxiv:2010.14554

Modelos generativos en Fisica

Comparar datos y simulaciones de forma optima:

Simulation-based Inference

Modelos generativos en Fisica

arXiv:1911.01429

Modelar incertidumbres

arxiv:2010.14554

Modelos generativos en Fisica

Universo actual

Condiciones Iniciales

Representar priors complejos

arxiv:2206.14820

Modelos generativos en Fisica

prior en galaxies?

Lente

gravitacional

Modelos Generativos

p_\phi(x)

Datos

Una PDF que podamos parametrizar

Maximizar el likelihood!

(o algo que se le parece)

2. Generar muestras

x \sim p_\phi(x)

1. Estimar densidades

p_\phi(x)

Maximizar el likelihood (o algo que se le parezca)

p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}

Posterior

Likelihood

Prior

Evidence

Distribucion base

Distribucion destino (target)

p_X(x) = p_Z(z) \left| \frac{dz}{dx}\right|
Z \sim \mathcal{N} (0,1) \rightarrow g(z) \rightarrow X

Normalising flows: Cambio de variables

Transformacion Invertible

z \sim p_Z(z)
p_Z(z)
\mathrm{Uniform(0,1)} \rightarrow U_1, U_2
Z_0 = \sqrt{-2 \ln U_1} \cos(2 \pi U_2)
Z_1 = \sqrt{-2 \ln U_1} \sin(2 \pi U_2)
Z_0, Z_2 \leftarrow N(0,1)

Transformacion Box-Muller: Normalising flows en 1934

x = f(z), \, z = f^{-1}(x)
p(\mathbf{x}) = p_z(f^{-1}(\mathbf{x})) \left\vert \det J(f^{-1}) \right\vert

(Image Credit: Phillip Lippe)

p(x) = \int dz \, p(x|z)

z: Variables latentes

Normalising flows

Normalising flows

No es tan fácil encontrar funciones invertibles! 

Splines

arXiv:2202.05282

 

Normalising flows en cosmologia

Normalising flows en cosmologia

arXiv:2202.05282

 

arXiv:2202.05282

 

Normalising flows en cosmologia

Simulation-based Inference

arXiv:1911.01429

arxiv:2211.00723

Simulation-based Inference en cosmology

Las soluciones de ecuaciones diferenciales ordinarias (ODEs) son siempre invertibles!

z = x + \int_0^1 \phi (x(t)) dt
x = z + \int_1^0 \phi (x(t)) dt
\log p_X(x) = \log p_Z(z) + \int_0^1 \mathrm{Tr} J_\phi (x(t)) dt

Problemas NFs: Falta expresividad

  • Function invertible
  • Jacobiano tratable

 

Chen et al. (2018), Grathwohl et al. (2018)

z = x + \int_0^1 \phi (x(t)) dt

Variational Auto Encoders

\mathcal{L} = || x - \hat{x} || ^2

Complex

Simple

Variational Auto Encoders

\mathcal{L} = \textrm{max} \, p(x)

Maximizar el likelihood o algo que se le parezca: Variational Inference

p_\theta(x) = \int p_\theta (x|z) p(z) dz
D_\mathrm{KL}(p(x)||q(x)) = \int p(x) \ln \frac{p(x)}{q(x)} dx

No es simetrica!

D_\mathrm{KL}(p(x)||q(x)) \geq 0

La divergencia de Kullback-Leibler (KL):

Distancia entre dos distribuciones de probabilidad

Forward KL

Backward KL

\log p(\boldsymbol{x}) =
\geq \mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{z}\mid\boldsymbol{x})}\left[\log\frac{p(\boldsymbol{x}, \boldsymbol{z})}{q_{\boldsymbol{\phi}}(\boldsymbol{z}\mid\boldsymbol{x})}\right]
\mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{z}\mid\boldsymbol{x})}\left[\log\frac{p(\boldsymbol{x}, \boldsymbol{z})}{q_{\boldsymbol{\phi}}(\boldsymbol{z}\mid\boldsymbol{x})}\right] + \mathcal{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\boldsymbol{z}\mid\boldsymbol{x}) \mid\mid p(\boldsymbol{z}\mid\boldsymbol{x}))

Evidence Lower Bound

(ELBO)

Distancia al posterior real

q_\phi(z|x) \approx p(z|x)

Encontrar

1. ELBO es un lower bound del likelihood

2. Maximizar ELBO = Minimizar KL

Maximizar ELBO maximiza ev/likelihood

Maximizar ELBO para aproximar el posterior

Tutorial 1: Maximizar ELBO para aproximar posteriors en cosmologia

Variational Auto Encoders

\mathcal{L} = \textrm{ELBO} = \langle \log p_\theta(x,z) - \log q_\phi(z) \rangle _{q_\phi(z)}
= \langle \log p_\theta (x|z) \rangle_{q_\phi} - D_\mathrm{KL} (q_\phi(z|x) || p(z))

Reconstruccion (MSE)

Regularizacion

  • Continuo  puntos cercanos en espacio latente deberian ser cercanos en el espacio de los datos
  • Completo cualquier punto sampleado del espacio latente debe llevar a un ejemplo sensible de los datos

arxiv:2008.03833

Variational Auto Encoders en Astro

Tutorial 2: Generar galaxias con VAEs

z_T
z_{0}
z_{1}
z_{2}
p(z_{t-1}|z_t)
p(z_t|z_{t-1})

Reverse diffusion: Quitar ruido al paso previo

Forward diffusion: Ruido Gaussian (fijo)

Una persona medio Yoda medio Gandalf

Diffusion models

+ dimensiones(z) = dimensiones(x)

+ encoder fijo: ruido gaussiano

Deep VAE 

Diffusion = 

Encoder

Ruido Gaussiano

Decoder

(neural network)

z_T
z_{0}
z_{1}
z_{2}
q_\theta(z_{t-1}|z_t)
p(z_t|z_{t-1})

Cosmologia

Diffusion models en cosmologia

Reverse diffusion: Quitar ruido al paso previo

Forward diffusion: Ruido Gaussian (fijo)

arxiv:2104.13478

El zoo de arquitecturas:

déjate llevar por las simetrias

h_0
h_1
h_5
h_4
h_2
h_3
h_6

Propiedades de los nodos (posiciones, velocidades...)

Input

Propiedades galaxias ruidosas

Output

Prediccion del ruido

kNN (~20)

Graph neural networks para predecir el ruido

\mathcal{L}_T(x) = \sum_{i=1}^T \mathbb{E}_{q(z_{i}|x)} D_{KL} \left[q(z_{i-1} | z_{i}, x) || p_\theta(z_{i-1} | z_{i}) \right]
-\log p(x) \leq -\mathrm{VLB}(x)
D_{KL}(q(z_T|x) || p(z_T)) + \mathbb{E}_{q(z_0|x)} \left[-\log p(x|z_0) \right] + \mathcal{L}_T(x)

Prior

Diffusion

Reconstruction

Se un Bayesian de verdad: siempre maximiza el likelihood

arxiv:2107.00630

arxiv:2303.00848

Maximum Likelihood = Denoising

Tutorial 3: Generar jets de partículas con diffusion models

cuestalz@mit.edu

Modelos Generativos Summer School Latam

By carol cuesta

Modelos Generativos Summer School Latam

  • 407