Una breve introducción
Luis Manuel Román García
Combinación lineal parámetros
Función de activación
Salida
Error
Actualización parámetros
Desafortunadamente, este algoritmo solo puede clasificar adecuadamente clases que son linealmente separables.
Error
Actualización parámetros
Salida
Función de activación
Función de decisión
Combinación lineal parámetros
Gradiente
Función de costo global
Costo inicial de los parámetros
Uno de los primeros ejemplos que mostraban la falibilidad del perceptrón como modelo de aprendizaje fue la función XOR
Lo que queremos es un modelo que sea capaz de identificar la región amarilla.
Error en el nodo de salida
Gradiente en capas ocultas
Error en capas ocultas
Entrada
Predicción
Objetivo
Surgen cuando apilamos múltiples niveles de perceptrones que se encuentran conectados entre sí y retroalimentados por funciones de activación.
¿Recuerdan este problema?
Función XOR
Propuesta de solución
Imágenes
Audio
Lenguaje
efectividad drogas | acelerador de partículas |reconstrucción cerebral | mutaciones genéticas | clasificación de temas |
análisis de sentimientos | pregunta respuesta | procesamiento de video | cómputo creativo | traducción de lenguaje
2010
2011
2012
2013
2014
2015
70%
75%
80%
85%
90%
95%
CNN
Tradicional
Precisión histórica del modelo ganador del desafío anual ImageNet
And lying sleeping on an open bed.
And I remember having started tripping,
Or any angel hanging overhead,
Without another cup of coffee dripping.
Surrounded by a pretty little sergeant,
Another morning at an early crawl.
And from the other side of my apartment,
An empty room behind the inner wall.
A green nub pushes up from moist, dark soil.
Three weeks without stirring, now without strife
From the unknown depths of a thumbpot life
In patient rhythm slides forth without turmoil,
A tiny green thing poking through its sheath.
Shall I see the world? Yes, it is bright.
Silent and slow it stretches for the light
And opens, uncurling, above and beneath.
¿Cuál es el humano?
Hemos visto que las redes neuronales tienen propiedades interesantes. De hecho hay un par de resultados que nos aseguran que una red con dos niveles ocultos es un aproximador universal.
Salida ponderada RN
Salida ponderada capa oculta
Cuál es la ventaja de apilar una gran cantidad de capas en lugar de buscar la mejor combinación de parámetros en redes 'anchas'.
Eficiencia
Aprender representaciones
Las redes neuronales profundas son capaces de aprender representaciones más complejas de los parámetros sin incluir el sesgo del modelador.
La composición de múltiples capas hace que se puedan aprender estas representaciones de manera eficiente.
Sin embargo, al ser modelos tan complejos, hay que tener en consideración varios aspectos técnicos con tal de evitar utilizar estos modelos como cajas negras y caer en errores de interpretación y diseño.
El componente más básico de una red neuronal es la unidad de activación.
- Insumos (que pueden ser provistos por capas previas)
- El sesgo u ordenada
- Función de activación (que puede ser diferente en las capas ocultas y la de salida dependiendo el problema.
Funciones de activación
Actualmente no es muy claro qué es lo que determina que función de activación es mejor que otra para cierta aplicación.
Sin embargo, la unidad lineal rectificada tiende a ser preferida en muchas situaciones y es una buena primera opción.
Algo que vale la pena notar es que las ReLu son buenas para propagar información hacia atrás pues el modelo es lineal.
En caso de que se quieran usar activaciones sigmoidales la tangente hiperbólica tiende a ser mejor que la logística pues se satura menos en los extremos.
Funciones de activación
Epocas
Error
Ahora una pregunta relevante es, cómo podemos actualizar los pesos de las capas ocultas y de la capa de entrada, cuando solo tenemos retroalimentación con respecto al error en la capa de salida.
Por ejemplo, supongamos que tenemos la siguiente arquitectura.
¿Cómo podríamos actualizar ?
Afortunadamente, frameworks como Tensorflow y Theano nos permiten llevar a cabo diferenciación automática!
Cumpliendo con todos los supuestos de regularidad, lo mejor que podemos esperar es convergencia sublineal:
Mejor escenario
Esto se debe a que estos modelos presentan no convexidad y no linealidad en sus curvas de error.
Cumpliendo con todos los supuestos de regularidad, lo mejor que podemos esperar es convergencia superlineal:
Mejor escenario