Cristóbal Silva
Inteligencia Artificial
Machine Learning
Deep Learning
Agentes que aprenden a imitar "comportamiento inteligente"
Algoritmos que aprenden a partir de datos
Aprendizaje basado en Redes Neuronales con grandes cantidades de datos
1998 - LeNet 5
2012 - AlexNet
Detección de objetos en ambientes no controlados
Mask R-CNN (Facebook)
Modelos para generar voz
Mejor resultado antes de Deep Learning
WaveNet (Google Deepmind)
Transferencia de estilo
Deep Image Analogy (Microsoft)
No necesitamos diseñar features
Capa 1
Capa 2
Capa 3
bordes, esquinas
ojos, narices, bocas
partes de rostros
Tenemos más recursos que antes
Datos
Hardware
La mayoría respaldados por grandes compañías
Se basan en la idea del grafo computacional
a
b
u=a+b
v=3*b
f=u*v
Podemos calcular cualquier operación, e.g., el forward-pass de una red neuronal
¿cómo calculamos del backward-pass?
Se basan en la idea del grafo computacional
a
b
u=a+b
v=3*b
f=u*v
Se descompone cada derivada usando la regla de la cadena
Se basan en la idea del grafo computacional
a
b
u=a+b
v=3*b
f=u*v
Se descompone cada derivada usando la regla de la cadena
Se basan en la idea del grafo computacional
a
b
u=a+b
v=3*b
f=u*v
Se calcula como la magnitud del cambio desde un nodo hacia otro
Se basan en la idea del grafo computacional
a
b
u=a+b
v=3*b
f=u*v
Se calcula como la magnitud del cambio desde un nodo hacia otro
Se basan en la idea del grafo computacional
5
3
u=5+3
v=3*3
f=8*9
Se basan en la idea del grafo computacional
5
3
u=5+3
v=3*3
f=8*9
Propuesta: formular regresión logística en grafo
Regresor
Función de Costo
Se basan en la idea del grafo computacional
Varias formas de calcular una derivada
Diferenciación Numérica
Diferenciación Automática
Diferenciación Simbólica
Aproximación vía diferencias finitas
Se define la derivada de cada operación
Similar a la diferenciación simbólica, pero esta explota la estructura del grafo para evitar cálculos redundates
Hoy en día la mayoría de los frameworks usa diferenciación automática
Variantes o mejoras sobre el Descenso de Gradiente
Momentum
Adagrad
Adadelta
RMSProp
Adam
Agrega un término de "aceleración" al Descenso de Gradiente estocástico
Tasa de aprendizaje adaptiva, distinta para cada parámetro
Tasa de aprendizaje adaptiva, distinta para cada parámetro, extensión de Adagrad
Tasa de aprendizaje adaptiva, distinta para cada parámetro, más un término similar al de Momentum
Tasa de aprendizaje adaptiva, distinta para cada parámetro, extensión de Adagrad
Cada una tiene sus ventajas y sus propios hiper-parámetros
Rectified Linear Unit (ReLU)
Glorot et. al.; Deep Sparse Rectifier Neural Networks; Machine Learning Research; 2011
Leaky ReLU
Sirven como alternativas
ELU (Exponential Linear Unit)
\((a = 1)\)
Sigmoidea
Tangente Hiperbólica
Podemos ver la red neuronal como un modelo probabilístico paramétrico
Optimizar usando Máxima Verosimilitud
Si definimos el costo como la log-verosimilitud negativa, entonces:
La capa de salida define la función de costo
Podemos ver la red como un modelo paramétrico probabilístico
Optimizar usando Máxima Verosimilitud
Si definimos el costo como la log-verosimilitud negativa, entonces:
Podemos separar la capa de salida de las capas intermedias (features)
Salida capas ocultas
\(\mathbf{x}\)
\(h(\mathbf{x};\theta)\)
\(y(\mathbf{h};W)\)
Tipo
Continua
Binaria
Discreta
Capa
Lineal
Sigmoidea
Softmax
Distribución
Gaussiana
Bernoulli
Categórica
Se puede definir con...
Asumiendo una...
Salida...
Capa de salida Lineal
Sirven para definir la media de una distribución Gaussiana
Maximizar verosimilitud es minimizar MSE
Capa de salida Sigmoidea
Se define para problemas de clasificación binaria (Bernoulli)
Notemos que la sigmoidea es buena no solamente por estar entre 0 y 1, también posee gradientes fuertes cuando la predicción es errónea
Capa de salida Softmax
Se define para problemas multi-clase
Modelos generativos que tienen interpretación probabilística
Frameworks de Deep Learning han permitido desarrollar librerías de programación probabilística
Inferencia Variacional
Markov-Chain Monte-Carlo
Procesos Gaussianos
Modelos Bayesianos Jerárquicos
Modelos Lineales Generalizados
Arquitecturas
Métodos de Optimización
Otras referencias