Breve introducción a redes neuronales y deep learning
BE3027 - Robótica Médica
El perceptrón como punto de partida
¿Cómo?
entradas
pesos
suma
entradas
pesos
suma
término de bias
entradas
pesos
suma
término de bias
pensemos sobre realmente qué es esto y cuáles son sus limitantes
entradas
pesos
suma
función de activación
(no linealidad)
entradas
pesos
suma
salida
hipótesis
función de activación
(no linealidad)
Funciones de activación "comunes"
el perceptrón original empleaba el escalón unitario
el perceptrón original empleaba el escalón unitario
mapa lineal \(\equiv\) hiperplano en \(\mathbb{R}^d\)
la función de activación introduce la no linealidad que hace posible la clasificación binaria
Ejemplo
función de activación sigmoide
\(f=\sigma\)
Ejemplo
hiperplano separador
Ejemplo
hiperplano separador
¿Cuándo falla el perceptrón?
Ejemplo: XOR
A | B | A XOR B |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
A
B
0
1
1
Ejemplo: XOR
A | B | A XOR B |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
A
B
0
1
1
La data no es linealmente separable
Ejemplo: XOR
A | B | A XOR B |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
A
B
0
1
1
La data no es linealmente separable
¿Solución?
¿Solución?
¿Solución?
¿Solución?
Red neuronal (de una capa)
entradas
salidas
capa oculta
entradas
salidas
capa oculta
entradas
salidas
capa oculta
entradas
salidas
capa oculta
¿Por qué?
El teorema de aproximación universal
Establece que una red neuronal de una sola capa, también conocido como perceptrón multicapa (MLP), con una función de activación no lineal adecuada, puede aproximar cualquier función continua definida en un espacio compacto con una precisión arbitraria, siempre y cuando se le permita tener un número suficiente de neuronas en la capa oculta.
- ChatGPT 4o
Una justificación retroactiva
Una justificación retroactiva
Una justificación retroactiva
a)
b)
c)
Una justificación retroactiva
d)
e)
f)
Una justificación retroactiva
g)
h)
i)
Una justificación retroactiva
j)
Una justificación retroactiva
j)
otros posibles modelos con parámetros distintos
Una justificación retroactiva
¿Qué ocurre conforme se añaden nodos a la capa oculta?
Del teorema de aproximación universal a deep learning
Deep learning vs machine learning
¿Por qué deep learning? *
¿Cuándo usar deep learning? *
SÍ
- Gran cantidad de data (~ 10k+ ejemplos).
- Problema complejo.
- Data carece de estructura.
- Se necesita el "mejor modelo".
- Se tiene el hardware apropiado.
NO
-
Poca data.
-
Métodos tradicionales son suficientes.
-
Data posee estructura.
-
Se posee conocimiento del dominio.
-
El modelo debe ser explicable.
¿Cuándo usar deep learning? *
SÍ
- Gran cantidad de data (~ 10k+ ejemplos).
- Problema complejo.
- Data carece de estructura.
- Se necesita el "mejor modelo".
- Se tiene el hardware apropiado.
NO
-
Poca data.
-
Métodos tradicionales son suficientes.
-
Data posee estructura.
-
Se posee conocimiento del dominio.
-
El modelo debe ser explicable.
* si bien esto aún es cierto, corresponde a una perspectiva anticuada.
Bajo la perspectiva de MLPs con funciones de activación ReLU puede simplemente decirse que las redes profundas son "más expresivas" que sus contrapartes no profundas.
Ejemplo de "expresividad"
Ejemplo de "expresividad"
7 regiones lineales vs 16 regiones lineales
Ejemplo de "expresividad"
7 regiones lineales vs 16 regiones lineales
\(D\) nodos con \(K\) capas
¿Neuronas "especializadas"?
El zoológico de redes neuronales
Frameworks para deep learning
fáciles, útiles para prototipado
más populares para implementación
BE3027 - Lecture 16 (2024)
By Miguel Enrique Zea Arenales
BE3027 - Lecture 16 (2024)
- 53