REDES RECURRENTES

Deep Learning - Clase 3

Cristóbal Silva

Secuencias como entrada

¿Qué pueden ser datos secuenciales?

Señales

Audio, financieras, médicas, etc.

The only thing necessary for the triumph of evil is for good men to do nothing.

Edmund Burke

Texto

Palabras, caracteres, n-gramas, etc.

Imágenes

Videos (secuencia de frames)

Secuencias como entrada

¿Qué problemas pueden resolver?

Entrada y salida pueden ser secuencias; a veces del mismo tamaño, a veces de diferente tamaño.

A veces solo la entrada es una secuencia; a veces solo la salida es una secuencia.

Secuencias como entrada

Distintas arquitecturas, dependiendo del tamaño de la entrada y la salida

Each rectangle is a vector and arrows represent functions (e.g. matrix multiply). Input vectors are in red, output vectors are in blue and green vectors hold the RNN's state (more on this soon). From left to right: (1) Vanilla mode of processing without RNN, from fixed-sized input to fixed-sized output (e.g. image classification). (2) Sequence output (e.g. image captioning takes an image and outputs a sentence of words). (3) Sequence input (e.g. sentiment analysis where a given sentence is classified as expressing positive or negative sentiment). (4) Sequence input and sequence output (e.g. Machine Translation: an RNN reads a sentence in English and then outputs a sentence in French). (5) Synced sequence input and output (e.g. video classification where we wish to label each frame of the video). Notice that in every case are no pre-specified constraints on the lengths sequences because the recurrent transformation (green) is fixed and can be applied as many times as we like.

The Unreasonable Effectiveness of Recurrent Neural Networks,
Andrej Karpathy, 2015

Forward-Pass

Notación compacta

Forward-Pass

Many-to-Many

Forward-Pass

Many-to-Many

Forward-Pass

Many-to-Many

Forward-Pass

Many-to-Many

Forward-Pass

Las dependencias se acumulan,
la red no es solo deep ahora, si no que también es wide

Many-to-Many

Función de Costo

Many-to-Many

Back-prop through time

Many-to-Many

Forward-Pass

Many-to-One

Forward-Pass

Many-to-Many

Forward-Pass

One-to-Many

Ejemplo - Modelar Lenguaje

One-to-Many

Supongamos que queremos predecir la probabilidad de ver una secuencia de letras. Sabemos que

P(``h",``o",``l",``a") > P(``a", ``z", ``s", ``x")

¿Cómo transmitimos eso a la red?
\( y_t \) es un vector con la probabilidad de cada letra dada la anterior

Ejemplo - Modelar Lenguaje

One-to-Many

Supongamos que queremos predecir la probabilidad de ver una secuencia de letras. Sabemos que

P(``h",``o",``l",``a") > P(``a", ``z", ``s", ``x")

¿Cómo transmitimos eso a la red?
\( y_t \) es un vector con la probabilidad de cada letra dada la anterior

Ejemplo - Modelar Lenguaje

One-to-Many

Supongamos que queremos predecir la probabilidad de ver una secuencia de letras. Sabemos que

P(``h",``o",``l",``a") > P(``a", ``z", ``s", ``x")

¿Cómo transmitimos eso a la red?
\( y_t \) es un vector con la probabilidad de cada letra dada la anterior

Regla de la cadena de probabilidades

Ejemplo - Modelar Lenguaje

One-to-Many

Supongamos que queremos predecir la probabilidad de ver una secuencia de letras. Sabemos que

P(``h",``o",``l",``a") > P(``a", ``z", ``s", ``x")

¿Cómo transmitimos eso a la red?
\( y_t \) es un vector con la probabilidad de cada letra dada la anterior

Obtener muestras del modelo

Para \( \ t = 1:N \)

Sacar vector de probabilidades a partir de la entrada
Muestrear un caracter usando esas probabilidades
Usar el caracter obtenido como siguiente entrada

Los modelos de lenguaje no son solamente a base de caracteres, también pueden construirse usando palabras completas a partir de un diccionario de palabras.

Vanishing/Exploding Gradients

Volviendo al primer ejemplo, ¿qué pasa con las dependencias en el tiempo?

¿cómo influye la primera "capa" sobre la "última"?

Volviendo al primer ejemplo, ¿qué pasa con las dependencias en el tiempo?

¿cómo influye la primera "capa" sobre la "última"?

Vanishing/Exploding Gradients

Volviendo al primer ejemplo, ¿qué pasa con las dependencias en el tiempo?

¿cómo influye la primera "capa" sobre la "última"?

¿Qué pasa si tenemos 100 en vez de 3 salidas?

Vanishing/Exploding Gradients

A medida que volvemos en el tiempo, la influencia depende de una mayor cantidad de multiplicaciones de matrices \( W_{hh} \)

Vanishing/Exploding Gradients

Si los valores propios de la matriz no son cercanos a 1

Matriz de valores propios

A medida que volvemos en el tiempo, la influencia depende de una mayor cantidad de multiplicaciones de matrices \( W_{hh} \)

Vanishing/Exploding Gradients

A medida que volvemos en el tiempo, la influencia depende de una mayor cantidad de multiplicaciones de matrices \( W_{hh} \)

Vanishing/Exploding Gradients

Exploding Gradient puede mitigarse poniendo una cota superior al gradiente

Vanishing Gradient requiere una solución más compleja

Una capa oculta es simplemente una fully-connected con entrada y salida únicas.

Usualmente la función de activación será \( \tanh \) .

La entrada puede ser \( x_t \) o \( h_t \) pero por simplicidad usaremos solo la primera.