Sistemas Inteligentes

Unidad de competencia III. Algoritmos de aprendizaje

Ing. Oscar Alonso Rosete Beas

Semana 26 Abril Rev:1 ciclo 2021-1

oscarrosete.com

oscarrosete.com

Agenda

3.1. Aprendizaje supervisado y no supervisado
3.2. Algoritmo “Backpropagation through time”
3.3. Aprendizaje en tiempo real
3.4. Algoritmo K-Means
3.4. Redes Neuronales

Unidad de competencia III. Algoritmos de aprendizaje

oscarrosete.com

Unidad 2

oscarrosete.com

oscarrosete.com

oscarrosete.com

Agenda

3.1. Aprendizaje supervisado y no supervisado
3.2. Algoritmo “Backpropagation through time”
3.3. Aprendizaje en tiempo real
3.4. Algoritmo K-Means
3.4. Redes Neuronales

Unidad de competencia III. Algoritmos de aprendizaje

oscarrosete.com

oscarrosete.com

Repaso metodologías IA

oscarrosete.com

oscarrosete.com

Repaso Agentes Inteligentes

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Es la ciencia de enseñar a las computadoras a hacer predicciones basadas en datos.

 

En un nivel básico, el aprendizaje automático implica dar a una computadora un conjunto de datos y pedirle que haga una predicción.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Al principio, la computadora tendrá muchas predicciones incorrectas. Sin embargo en el transcurso de miles de predicciones, la computadora actualizará su algoritmo para hacer mejores predicciones.

 

Este tipo de computación predictiva solía ser imposible. Las computadoras simplemente no podían almacenar suficientes datos o procesarlos lo suficientemente rápido como para aprender de manera efectiva.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

En la siguiente figura se muestran tres subconjuntos del aprendizaje automático que pueden utilizarse:

Aprendizaje supervisado, no supervisado y de refuerzo

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Imaginemos que hay que organizar 10,000 fotografías y los algoritmos tienen que identificar las fotos en las que aparece un gato.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Los algoritmos usan datos que ya han sido etiquetados u organizados previamente para indicar como tendría que ser categorizada la nueva información. Con este método, se requiere la intervención humana para proporcionar retroalimentación.

 

Enseñaríamos previamente al algoritmo fotos donde apareciera un gato para que luego pudiera identificar imágenes similares.

Aprendizaje supervisado

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Los algoritmos no usan ningún dato etiquetado u organizado previamente para indicar como tendría que ser categorizada la nueva información, sino que tienen que encontrar la manera de clasificarlas ellos mismos. 

Este método no requiere la intervención humana.

 

En el ejemplo, los algoritmos tendrían que clasificar ellos mismos todas las fotos en las que apareciera un gato en una categoría.

Aprendizaje no supervisado

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Supervised vs Unsupervised Learning

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Los algoritmos que aprenden de la experiencia.

En otras palabras, tenemos que darles un refuerzo positivo cada vez que aciertan.

 

La forma en que estos algoritmos aprenden se puede comparar con la de los perros cuando les damos recompensas al aprender a sentarse, por ejemplo.

Aprendizaje por refuerzo (reinforcement learning)

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Aprendizaje por refuerzo (reinforcement learning)

oscarrosete.com

oscarrosete.com

Inteligencia Artificial

Una de las aplicaciones más poderosas y de mayor crecimiento de la inteligencia artificial es el aprendizaje profundo.

Se trata de un subcampo del aprendizaje automático que se utiliza para resolver problemas muy complejos y que normalmente implican grandes cantidades de datos. el aprendizaje profundo se produce mediante el uso de redes neuronales organizadas en capas para reconocer relaciones y patrones complejos en los datos.

Aprendizaje profundo (Deep learning)

oscarrosete.com

oscarrosete.com

En una extensión no menor a dos cuartillas con sus respectivas referencias deberá investigar y desarrollar los siguientes temas:

  1. Diferencia entre una tarea de clasificación y una de regresión lineal.

  2. Gradiente Descendiente para aprendizaje automático (Gradient Descent)

  3. Perceptron

  4. Algoritmo “Backpropagation through time

Aprendizaje automático

Trabajo de investigación

oscarrosete.com

oscarrosete.com

Agenda

3.1. Aprendizaje supervisado y no supervisado
3.2. Algoritmo “Backpropagation through time”
3.3. Aprendizaje en tiempo real
3.4. Algoritmo K-Means
3.4. Redes Neuronales

Unidad de competencia III. Algoritmos de aprendizaje

oscarrosete.com

oscarrosete.com

Supongamos que estamos en la búsqueda de un apartamento

Hablamos con amigos, familiares y hacemos una búsqueda en línea por apartamentos en Mexicali y detectamos que los apartamentos en diferentes zonas tiene precios distintos.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

  • Un departamento de una cama céntrico cuesta 5000 al mes
  • Departamento de dos camas céntrico 7,000
  • Departamento de una cama con cochera cuesta 6,000
  • Departamento de una cama orillas de la ciudad 3,000
  • Departamento con 2 camas orillas de la ciudad 4,500
  • Departamento de 1 cama orillas de la ciudad con cochera 4,800

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Empezamos a notar patrones:

  • Los apartamentos céntricos son usualmente mas costosos y tienen un costo entre 5,000 y 7,000. 
  • Los de las afueras mas baratos
  • Incrementar el numero de habitaciones agrega entre 1,500 y 2,000 al mes
  • La cochera agrega entre 800 y 1000

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Este ejemplo muestra como utilizamos la información para encontrar patrones y tomar decisiones.

Si encuentras un departamento de 2 habitaciones céntrico con cochera, sería razonable asumir que el precio sería aproximadamente de 8,000 al mes.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

La figura muestra la relación entre distintos atributos de la información.

Los puntos se encuentran mas cercanos al centro de la ciudad y hay un patrón claro de relación con el precio, así como un decremento gradual al incrementar la distancia.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Tipícamente la información esta representada en tablas. Las columnas son referidas como los atributos de la información, los renglones como los ejemplos. Al comparar dos atributos, el atributo medido puede ser representado como y  y el atributo cambiante como x.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Aprendizaje de maquina es útil cuando tenemos información y cuestiones a investigar que la información podría resolver.

Diferentes categorías de algoritmos resuelven diferentes preguntas.

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Aprendizaje automático

oscarrosete.com

oscarrosete.com

Una de las técnicas mas comunes es el aprendizaje supervisado. Al visualizar la información queremos comprender las relaciones y patrones en la información para predecir los resultados.

 

En el ejemplo de búsqueda de apartamentos podría utilizarse, así como al utilizar autocompletado en aplicaciones o al recibir preferencias musicales.

Aprendizaje supervisado

oscarrosete.com

oscarrosete.com

Aprendizaje automático tiene dos subcategorías, regresión y clasificación.

Regresión involucra trazar una linea para separar un conjunto de datos que  sea acorde a  la forma de la información.

 

Puede utilizarse para detectar tendencias entre iniciativas de marketing y ventas.

Aprendizaje supervisado

oscarrosete.com

oscarrosete.com

Clasificación busca predecir categorías de ejemplos basados en sus atributos.

 

Podemos determinar si es un carro o un camión basándonos en su cantidad de llantas, peso y velocidad máxima.

Aprendizaje supervisado

oscarrosete.com

oscarrosete.com

No se trata solamente de algoritmos. Realmente, en múltiples ocasiones se trata del contexto de la información, la preparación de la información y las preguntas que se están realizando.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Para el exito del aprendizaje automatico es clave recolectar y entender la informacion.

Supongamos trabajaremos con análisis de diamantes

Machine learning workflow

oscarrosete.com

oscarrosete.com

La tabla describe múltiples diamantes y sus propiedades. X, Y, Z describen el tamaño del diamante en 3 dimensiones espaciales.

Machine learning workflow

oscarrosete.com

oscarrosete.com

El conjunto de datos consiste de 10 columnas, referidas como atributos y 50,000 renglones.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Preparación de datos

puede haber datos faltantes, inconsistencia, formatos difíciles de trabajar etc.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Entrenar modelo

Como un paso preliminar debemos de asegurarnos de tener información suficiente para entrenar el modelo, así como información para probar que tan bien se están haciendo las predicciones con nuevos ejemplos.

 

Después de tener un entendimiento de como los atributos de los departamentos afectan el precio, podíamos hacer predicciones.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Información para entrenar, probar y validar

La validación cruzada o cross-validation es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.

 

Overfitting, Underfitting, Good fit

Machine learning workflow

oscarrosete.com

oscarrosete.com

Información para entrenar, probar y validar

La validación cruzada o cross-validation es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.

Sobreajuste, infrajuste

Machine learning workflow

oscarrosete.com

oscarrosete.com

Entrenar modelo

La selección del algoritmo a utilizar se ve influenciada por múltiples factores entre los cuales se encuentra la pregunta de investigación y la naturaleza de la información disponible.

 

Si la pregunta tiene que ver con predicciones del precio de un diamante basado en el peso en quilates, los algoritmos de regresión pueden ser útiles.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión

Significa predecir un valor continuo, tal como el precio  de un diamante.

 

Al decir continuo nos referimos a que el valor predecido puede ser cualquier numero en un rango definido.

El precio de 2,271, por ejemplo, es un valor continuo  entre 0 y el máximo valor que la regresión puede predecir.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión lineal

La regresión lineal es uno de los algoritmos de aprendizaje más simples, nos ayuda a encontrar la relación entre dos variables y nos permite predecir una variable  con relación a otra.

 

Por ejemplo el precio del diamante considerando cantidad de quilates.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión lineal

Empecemos buscando encontrar una tendencia en la información para realizar predicciones.

Para explorar la regresión lineal, la pregunta de investigación sera:

 

¿Existe correlación entre los quilates de un diamante y su precio?, y en caso de existir, ¿podemos realizar predicciones precisas?

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión lineal

Empezaremos por aislar los atributos de quilates y el precio y graficarlos.

Utilizaremos quilates como x y el precio como y

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión lineal

El peso en quilates es una variable independiente (x). La variable independiente es la que cambia en un experimento para determinar el efecto en la variable dependiente (precio). 

Machine learning workflow

oscarrosete.com

oscarrosete.com

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión lineal

Debemos notar el peso en quilates son valores pequeños(decimales de gramo) comparados con el precio(miles). Se recomienda multiplicar por 1000 para que sean mas fáciles los cálculos.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Machine learning workflow

oscarrosete.com

oscarrosete.com

Regresión lineal

Al escalar los renglones, no afectamos la relación en la información ya que se ha realizado la misma operación sobre cada ejemplo.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Encontrar la media de los atributos
Para determinar la linea de regresión es necesario obtener la media de cada atributo.
La media es la suma de todos los valores dividida entre el  numero de valores.1,229 para peso en quilates(linea vertical) y $3,431 para el precio(linea horizontal).

Machine learning workflow

oscarrosete.com

oscarrosete.com

Encontrar la media de los atributos
La media es importante porque matemáticamente cualquier linea de regresión deberá pasar a través de la intersección de la media en x y la media en y. Múltiples lineas pueden pasar por ese punto, algunas serán mejores para ajustarse a la información.

 

 

Machine learning workflow

oscarrosete.com

oscarrosete.com

Encontrar el promedio de los atributos

El método de mínimos cuadrados busca crear una linea que minimiza las distancias entre las lineas y todos los puntos.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Método mínimos cuadrados

¿Porque una linea?

Supongamos que queremos construir un subterráneo que pase lo mas cerca posible de la mayoría de las oficinas principales.

No sería factible que visite cada edificio habrían múltiples estaciones y un costo elevado derivado.

Machine learning workflow

oscarrosete.com

oscarrosete.com

La regresión lineal determinaría una linea recta que se ajuste a la información para minimizar distancia de puntos general.

 

Entender la ecuación de la recta es importante.

y = c + mx

Machine learning workflow

oscarrosete.com

oscarrosete.com

La ecuación de la recta se describe por la siguiente expresión:

y = c + mx


y: variable dependiente

x: variable independiente

m: pendiente de la recta

c: valor de y , donde la linea intersecta el eje y.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Machine learning workflow

oscarrosete.com

oscarrosete.com

Sabemos que la media de x es 1,229 y la media de y es 3,431,

Machine learning workflow

oscarrosete.com

oscarrosete.com

Calculamos la diferencia de cada valor de quilates y de precio con respecto a su media.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Elevamos al cuadrado la diferencia del valor de quilates con respecto a la media y sumamos todos estos valores.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Multiplicamos la diferencia de los valores de peso en quilates y precio con respecto a su media y realizamos su sumatoria (11,624,370)

Machine learning workflow

oscarrosete.com

oscarrosete.com

Utilizamos estos valores para calcular m:

 

 

 

Con el valor de m y las medias calculamos c:

 

 

 

Machine learning workflow

oscarrosete.com

oscarrosete.com

Por ultimo graficamos la línea resultante

Machine learning workflow

oscarrosete.com

oscarrosete.com

Determinar la precisión

La información se particiona en 80/20. 80% para entrenar y 20% para realizar pruebas del modelo. Se utilizan porcentajes ya que la cantidad de ejemplos necesarios para entrenar un modelo es difícil de saber.

De acuerdo al contexto y la pregunta de investigación puede requerirse más o menos información.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Determinar la precisión

En regresión lineal un método común para medir la precisión de un modelo es calcular R2 (R squared) para determinar la varianza entre el valor actual y el valor predecido.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Mean vs fitted line

Machine learning workflow

oscarrosete.com

oscarrosete.com

Su valor nunca es negativo y usualmente expresado en porcentaje.

Machine learning workflow

oscarrosete.com

oscarrosete.com

El resultado—0.88—significa que el modelo es 88% preciso con información nueva.

El resultado es razonable, mostrando que  la regresión lineal es precisa.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Mejorar el desempeño

Entrenar y probar en información de prueba nos da una medida del desempeño del modelo. Cuando no se obtiene un resultado esperado debe realizarse trabajo adicional para mejorarlo lo que puede requerir iterar en los pasos previos.

Machine learning workflow

oscarrosete.com

oscarrosete.com

Recomendaciones para mejorar precisión

  • Recolectar más información.
  • Preparar la información distina
  • Seleccionar atributos distintos.
  • Seleccionar un algoritmo distinto para entrenar el modelo
  • Realizar un tratamiento sobre los falsos positivos (overfitting)

Machine learning workflow

oscarrosete.com

oscarrosete.com

Referencia de clase

oscarrosete.com

oscarrosete.com

Regresión lineal

El escenario más sencillo con el que nos podemos encontrar es el de una variable dependiente y una única variable independiente, que siguen una relación aproximadamente lineal, salvo ruido (típicamente, normalmente distribuido):

 

 

En general, vamos a desconocer la relación de arriba, pero con un conjunto de datos y mediante cuadrados mínimos podemos estimar los coeficientes.

y\backsimβ_0+β_{1x}

oscarrosete.com

oscarrosete.com

Si tenemos múltiples variables independientes, estamos en un problema de regresión  lineal múltiple:

 

 

 

Ejemplo: Precio de un auto en términos de consumo de combustible, año de fabricación, etc.

Sin embargo, este modelo nos impone una relación lineal entre la variable dependiente y sus regresores.

y\backsimβ_0+β_{1}x1+β_{2}x2+...+β_{m}xm

Regresión lineal

oscarrosete.com

oscarrosete.com

¿Cómo sabemos que necesitamos relaciones no-lineales?

En el gráfico de los residuos (residual plot analysis) no deberíamos ver ningún patrón. Si lo hubiera significa que el ruido depende de alguna de las variables independientes.

Regresión lineal

y-y estimada

En función de los valores estimados

oscarrosete.com

oscarrosete.com

¿Cómo sabemos que necesitamos relaciones no-lineales?

En el gráfico de los residuos no deberíamos ver ningún patron. Si lo hubiera significa que el ruido depende de alguna de las variables independientes.

Regresión lineal

y-y estimada

En función de los valores estimados

 

Ordinary least squares(OLS)

Mínimos cuadrados ordinarios

oscarrosete.com

oscarrosete.com

Análisis de los residuos (Residual plot analysis)

El supuesto más importante de la regresión lineal es que los errores son independientes y normalmente distribuidos.

 

Características de una buena gráfica de residuos:

  • Alta densidad de los puntos cercano al origen y baja densidad fuera del origen
  • Simetría respecto al origen.

Regresión lineal

oscarrosete.com

oscarrosete.com

Análisis de los residuos (Residual plot analysis)

Regresión lineal

Buena gráfica de residuos

Mala gráfica de residuos

oscarrosete.com

oscarrosete.com

¿Cómo introducir no linealidad al modelo?

En ningun momento dijimos que son las x's, pueden ser cualquier cosa...

 

 

 

 

La regresión polinómica sigue siendo lineal, ya que es lineal respecto a los parámetros del modelo.

 

Regresión lineal

y\backsimβ_0+β_{1}x1+β_{2}x2+...+β_{m}xm
y\backsimβ_0+β_{1}x1+β_{2}x^2+...+β_{m}x^m

oscarrosete.com

oscarrosete.com

La regresión polinómica sigue siendo lineal, ya que es lineal respecto a los parámetros del modelo.

 

 

 

Los parámetros se encuentran minimizando la suma del cuadrado de los residuos al igual que antes (residual sum of square).

 

 

Grado del polinomio:

Hiper-parámetro del modelo

Regresión polinómica

y\backsimβ_0+β_{1}x1+β_{2}x^2+...+β_{m}x^m

oscarrosete.com

oscarrosete.com

Parámetros vs Hiperparámetros

Los parámetros son las variables que definimos y ajustamos. Los parámetros son variables aprendidas y actualizadas por la red durante el entrenamiento y que nosotros no ajustamos.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Consideremos este conjunto de datos generados sinteticamente

 

 

 

 

 

 

Se están considerando los datos generados más un ruido normal.

Regresión polinómica

y=a*sin(pi*x)+b
a=2 ; b=1
datos=y+Ɛ
Ɛ= N(0, σ=0.5)

oscarrosete.com

oscarrosete.com

¿Cómo elegimos el grado del polinomio?

¿Qué pasa si probamos con un polinomio de grado m<N cualquiera?

 

 

 

 

 

 

Regresión polinómica

oscarrosete.com

oscarrosete.com

¿Cómo elegimos el grado del polinomio?

¿Qué pasa si probamos con un polinomio de grado m<N cualquiera?

 

 

 

 

 

 

Regresión polinómica

oscarrosete.com

oscarrosete.com

Sub-ajuste (underfitting)

El ajuste es bastante malo (tenemos muy pocos grados de libertad).

Los datos presentan una variablidad, más allá del ruido intrínseco, que un modelo simple no puede captar.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Sobreajuste (overfitting)

El ajuste es perfecto (tengo tantos grados de libertad como datos en mi sistema). La curva pasa por todos los puntos (describe exactamente la variabilidad de los datos)

Regresión polinómica

oscarrosete.com

oscarrosete.com

¿Cuál es el problema de sub-ajustar o sobre-ajustar?

Hacemos una mala predicción

Underfitting: cometemos sistemáticamente el mismo error.

Regresión polinómica

oscarrosete.com

oscarrosete.com

¿Cuál es el problema de sub-ajustar o sobre-ajustar?

Hacemos una mala predicción

Overfitting: La estimación perfecta en los datos de entrenamiento se pierde cuando predecimos nuevos datos.

Regresión polinómica

oscarrosete.com

oscarrosete.com

¿Cuál es el problema de sub-ajustar o sobre-ajustar?

Cuando el modelo es identificado, generaliza bien (describe bien datos distintos a los que fue entrenado)

Regresión polinómica

oscarrosete.com

oscarrosete.com

¿Qué pasa al cambiar datos de nuestro modelo (provenientes de la misma población)?

 

Regresión polinómica

Grado 1: mucho sesgo

Grado 3: poco sesgo y poca varianza.

Grado 8 (valor -0.8): mucha varianza

Cross validation

oscarrosete.com

oscarrosete.com

Sesgo y Varianza

Regresión polinómica

oscarrosete.com

oscarrosete.com

Sesgo y Varianza

El error que comete un modelo proviene de dos fuentes, sesgo y varianza, que compiten entre si al variar la complejidad (grado del polinomio) del modelo.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Modelo de juguete

Un modelo de juguete es un conjunto simplificado de objetos y las ecuaciones que los relacionan para que, sin embargo, puedan ser utilizados para entender un mecanismo que también es útil en la teoría completa, no simplificada.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Modelo de juguete

Un modelo que tenga la suficiente complejidad para captar la variabilidad de los datos, pero suficientemente simple para abstraer de los datos , abstenerse o tapar de ruido que presentan los datos  y poder señalizar o explicar bien otro conjunto de datos.

Regresión polinómica

oscarrosete.com

oscarrosete.com

K-fold Cross-validation for tuning hyper parameters

 

Regresión polinómica

oscarrosete.com

oscarrosete.com

K-fold Cross-validation for tuning hyper parameters

 

Regresión polinómica

oscarrosete.com

oscarrosete.com

Características del sobreajuste

  • Cantidad de parámetros libres comparable con la cantidad de datos con la que ajustamos.
  • Coeficientes muy altos

Regresión polinómica

oscarrosete.com

oscarrosete.com

Opciones contra sobreajuste (Regularización)

La idea de regularizar el polinomio es prevenir que los coeficientes no adopten valores absolutos muy altos, asociados a cambios bruscos en la curva ajustada.

Regresión polinómica

● q = 2 (ridge regression)
● q = 1 (lasso regression)

oscarrosete.com

oscarrosete.com

Regularización


Para atenuar el impacto de los problemas que aparecen al emplear modelos ajustados por minimos cuadrados ordinarios tales como el overfitting podemos utilizar regularización ridge, lasso o elastic net.

 

Estos métodos fuerzan a que los coeficientes del modelo tiendan a cero, minimizando así el riesgo de overfitting, reduciendo varianza, atenuado el efecto de la correlación entre predictores y reduciendo la influencia en el modelo de los predictores menos relevantes.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Regularización

 

Ridge

 

 

 

Lasso

 

Regresión polinómica

oscarrosete.com

oscarrosete.com

Regularización

 

La principal diferencia práctica entre lasso y ridge es que el primero consigue que algunos coeficientes sean exactamente cero, por lo que realiza selección de predictores, mientras que el segundo no llega a excluir ninguno.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Regularización


● q = 2 (ridge regression): deja a la función a minimizar cuadrática, con lo cual el proceso de minimización es muy parecido al de cuadrados mínimos.
● q = 1 (lasso regression): para valores de alfa altos, fuerza a que muchos coeficientes se vayan a 0, lo cual hace que el modelo se vuelva “esparso” (sparse en inglés, con muchos ceros). Ayuda a interpretar mejor modelo ya
que actúa como un selector de las variables importantes (se queda con los términos dominantes y descarta los otros).

Regresión polinómica

oscarrosete.com

oscarrosete.com

Regularización

Gracias a esto podríamos incrementar la complejidad del modelo y con el termino de regularización mejorar las características de predicción de datos futuros.

Regresión polinómica

oscarrosete.com

oscarrosete.com

Opción para interpolación

Random forest regression (bosque aleatorio)

Regresión polinómica

oscarrosete.com

oscarrosete.com

Regresión polinómica

oscarrosete.com

oscarrosete.com

  1. Revisar la documentación existente en: https://github.com/iamaziz/PyDataset
  2. Seleccionar un dataset
  3. Seleccionar dos atributos
  4. Ajustar un modelo de regresión polinomial de acuerdo al material visto en clase que obtenga los mejores resultados en el conjunto de datos de entrenamiento así como el conjunto de datos de prueba.

Aprendizaje automático

Actividad individual

oscarrosete.com

oscarrosete.com

  1. Agregar visualizaciones donde se muestren los datos de entrenamiento, datos de prueba y la predicción de su modelo.
  2. Agregar alguna métrica de la precisión de su predicción.
  3. Justificar el ajuste propuesto de hiperparámetros

Aprendizaje automático

Actividad individual

oscarrosete.com

oscarrosete.com

Agenda

3.1. Aprendizaje supervisado y no supervisado
3.2. Algoritmo “Backpropagation through time”
3.3. Aprendizaje en tiempo real
3.4. Algoritmo K-Means
3.4. Redes Neuronales

Unidad de competencia III. Algoritmos de aprendizaje

oscarrosete.com

oscarrosete.com

Motivación

 

 

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Motivación

 

 

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Solución

 

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Clasificación

Los problemas de clasificación involucran asignar una etiqueta a un ejemplo basado en sus atributos.

Estos problemas son diferentes a los de regresión, en  los que un valor es estimado.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Clasificación

La clasificación busca predecir un valor basado en una o más atributos, pero a diferencia de la regresión se busca predecir una clase discreta en lugar de un valor continuo.

 

Ejemplos de valores discretos son atributos categóricos tales como el color en el conjunto de datos del diamante a diferencia de valores continuos como el precio.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Clasificación

Suponga que contamos con múltiples vehículos que son carros y camiones, de los cuales mediremos el peso de  y contaremos su número de llantas de cada vehículo.

Podríamos buscar una relación entre el peso y el número de llantas de los vehículos para predecir si un vehículo es un carro o un camión.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Regresión vs Clasificación

Considere los siguientes escenarios y determine si es un problema de regresión o clasificación:

  • Basado en la información de ratas, donde contamos con un atributo de la expectativa de vida y la obesidad, buscamos determinar la correlación entre los dos atributos.
  • Basado en información de animales, donde contamos con el peso de cada animal y si cuenta o no con alas, buscamos determinar si esos animales son pájaros.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Regresión vs Clasificación

  • Basado en información de dispositivos de cómputo, donde contamos con información de dimensiones de la pantalla, peso y sistema operativo y buscamos determinar si los dispositivos son tablets, laptops o teléfono.
  • Basado en información del clima, donde contamos con información de la cantidad de lluvia y el valor de humedad y se busca determinar la humedad en diferentes temporadas de lluvia.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Regresión vs Clasificación

  • Regresión: La relación entre las dos variables se explora. La expectativa de vida es la variable dependiente y la obesidad la variable independiente.
  • Clasificación: Al asignar la etiqueta de si es un pájaro o no utilizando el peso y las características de los ejemplos.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Regresión vs Clasificación

  • Clasificación: Se clasifica un ejemplo en tablet, laptop o teléfono utilizando sus características.
  • Regresión: Se explora la relación entre cantidad de lluvia y humedad. La variable dependiente es la humedad y la independiente la cantidad de lluvia.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Diferentes algoritmos son utilizados para problemas de regresión y clasificación.

 

Algunos algoritmos de clasificación populares son regresión logística, análisis discriminante lineal (LDA), redes neuronales artificiales (ANN),  máquinas de vectores de soporte (SVM), K-Nearest-Neighbor (k-NN), clasificador bayesiano ingenuo (NB) y arboles de decisión (DT), bosques aleatorios y técnicas de aprendizaje profundo.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Motivación

Predicción pago de los clientes

Información utilizada: Ingreso, antecedentes previos de clientes

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Motivación

Decisiones médicas de urgencia:

Llega paciente a una guardia, luego de pocos estudios se decide si se lleva a intensivos o no.

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Motivación

El clima:

Dadas las temperaturas y la humedad, determinar si lloverá o no lloverá

Regresión logística y clasificación

oscarrosete.com

oscarrosete.com

Regresión Logística

La regresión logística y la regresión lineal son distintas en cuanto a los problemas que resuelven.

 

La regresión lineal se enfoca en predicciones numéricas y la regresión logística es utilizada en algoritmos de clasificación para predecir clases discretas.

Regresión logística

oscarrosete.com

oscarrosete.com

Regresión Logística

Por ejemplo la regresión logística se utiliza frecuentemente para detección de fraudes o identificar correos spam.

 

La principal diferencia es añadir una función sigmoide para calcular y convertir el resultado numérico a una probabilidad entre 0 y 1.

Regresión logística

oscarrosete.com

oscarrosete.com

La hipótesis de representación

Tenemos entonces:

  • x1, x2 características numéricas
  • Una etiqueta categórica (inicialmente binaria)

 

¿Qué hacemos?  clasificamos

Regresión logística

oscarrosete.com

oscarrosete.com

La hipótesis de representación

Supongamos el siguiente problema de clasificación

Llevamos las categorías a la representación binaria

Regresión logística

oscarrosete.com

oscarrosete.com

La hipótesis de representación

¿Qué pasa si tratamos de ajustar con una lineal?

Regresión logística

oscarrosete.com

oscarrosete.com

La hipótesis de representación

¿Qué pasa si tratamos de ajustar con una función lineal?

  • Imagen no acotada a 0 y 1.
  • Con nuevos datos de entrenamiento pueden cambiar abruptamente las predicciones del modelo, al agregar un registro al entrenamiento del modelo.

Regresión logística

oscarrosete.com

oscarrosete.com

La hipótesis de representación

Pensemos en una función como una probabilidad, no tiene sentido una probabilidad de 1.5

Utilizaremos una función con imagen acotada entre 0 y 1 (función sigmoidea), donde el parámetro de la exponencial son los coeficientes de la lineal

Regresión logística

oscarrosete.com

oscarrosete.com

Función sigmoidea

Utilizamos un poco del conocimiento previo de regresiones lineales para meterlo dentro del clasificador categórico.

 

La función sigmoidea también es llamada función logística, nos permite clasificar de forma binaria una categoría a partir de características numéricas.

Regresión logística

oscarrosete.com

oscarrosete.com

Función sigmoidea

  • Monótonamente creciente
  • Acotada entre 0 y 1
  • x es la variable independiente, y es la variable dependiente

Regresión logística

oscarrosete.com

oscarrosete.com

Función sigmoidea

Nos otorga probabilidad de que un registro valga y, dado que tengo parámetros beta y atributos (features) x

En cierta medida, se puede identificar como una probabilidad condicional y el teorema de bayes.

Regresión logística

oscarrosete.com

oscarrosete.com

Probabilidad de corte/quiebre:

Valor a partir del cual asignaría la etiqueta.

En la imagen es 0.5.

Esto es un potencial hiperparámetro.

Regresión logística

oscarrosete.com

oscarrosete.com

Frontera de decisión

Trabajando con la probabilidad de corte en 0.5, la cual determina los parámetros B.

Regresión logística

oscarrosete.com

oscarrosete.com

Frontera de decisión (más de una característica)

Trabajando con la probabilidad de corte en 0.5, la cual determina los parámetros B.

Regresión logística

oscarrosete.com

oscarrosete.com

Líneas encontradas con gradiente descendiente

Regresión logística

oscarrosete.com

oscarrosete.com

Frontera de decisión

Al igual que con la regresión lineal, podemos proponer polinomios:

Regresión logística

oscarrosete.com

oscarrosete.com

Búsqueda de coeficientes

A diferencia de lo que teníamos en el caso lineal, no utilizamos cuadrados mínimos.

Utilizamos conceptos de probabilidad (máxima verosimilitud), donde buscamos minimizar el producto de probabilidad de que a cada punto se le asigne la categoría correcta.

Regresión logística

oscarrosete.com

oscarrosete.com

Máxima verosimilitud y su relación con la función de costo del método de mínimos cuadrados

Máxima verosimilitud 

Regresión logística

oscarrosete.com

oscarrosete.com

Búsqueda de coeficientes

La máxima verosimilitud(MLE, o Maximum Likelihood Estimation), no es un algoritmo, es un metodo de estimación. Usualmente se utiliza un algoritmo tal como gradiente descendiente para calcular la máxima verosimilitud.

Regresión logística

oscarrosete.com

oscarrosete.com

Gradiente descendiente

El método del gradiente descendiente nos permite automatizar de forma más eficiente el ir probando coeficientes de los modelos de machine learning.

Regresión logística

oscarrosete.com

oscarrosete.com

Gradiente descendiente

Es un algoritmo de optimización. Nos permite obtener un mínimo (o un máximo, gradient ascent) de nuestra función de costo J(w, b)

Regresión logística

oscarrosete.com

oscarrosete.com

Función de coste

La función de coste J es la función de lo que queremos optimizar. En el caso más simple, es igual al error que queremos minimizar.

J = MSE
En algunos casos nos interesará introducir términos de regularización

Regresión logística

oscarrosete.com

oscarrosete.com

Gradiente descendiente

Hay tres tipos populares, los cuales difieren de la cantidad de datos a utilizar:

  • Batch gradient descent
  • Stochastic gradient descent
  • Mini-batch gradient descent

Se puede usar tanto con modelos simples como en modelos complejos (por ejemplo, redes neuronales con muchas variables)

Regresión logística

oscarrosete.com

oscarrosete.com

Implementación de gradiente descendiente para regresión lineal y logística

 

Regresión logística

Función de costo para la regresión lineal:

Mean Square Error (MSE)

oscarrosete.com

oscarrosete.com

Clasificación múlitple

¿Que pasa si tenemos mas de dos posibles categorías?

Predicción pago de los clientes:

paga el total, paga una parte, paga el minimo

 

Decisiones médicas de urgencia:

puede esperar, terapia intermedia, terapia intensiva.

Regresión logística

oscarrosete.com

oscarrosete.com

Clasificación múltiple

Uno contra todos, vamos a pensar en una comparación binaria para cada categoría:

  • Que pertenezca a A o no
  • Que pertenezca a B o no
  • Que pertenezca a C o no

Regresión logística

oscarrosete.com

oscarrosete.com

Clasificación múltiple

  • Que pertenezca a A o no (0.7)
  • Que pertenezca a B o no (0.5)
  • Que pertenezca a C o no (0.8)

 

Nos quedamos con la categoría según cual sea el :

Regresión logística

oscarrosete.com

oscarrosete.com

Regresión logística

oscarrosete.com

oscarrosete.com

Agenda

3.1. Aprendizaje supervisado y no supervisado
3.2. Algoritmo “Backpropagation through time”
3.3. Aprendizaje en tiempo real
3.4. Algoritmo K-Means
3.4. Redes Neuronales

Unidad de competencia III. Algoritmos de aprendizaje

oscarrosete.com

oscarrosete.com

Redes neuronales

oscarrosete.com

oscarrosete.com

  1. Revisar la documentación existente en: https://github.com/iamaziz/PyDataset
  2. Seleccionar un dataset
  3. Ajustar un modelo de regresión logística de acuerdo al material visto en clase que obtenga los mejores resultados en el conjunto de datos de entrenamiento así como el conjunto de datos de prueba.

Aprendizaje automático

Actividad individual

oscarrosete.com

oscarrosete.com

  1. Agregar visualizaciones donde se muestren los datos de entrenamiento, datos de prueba y la predicción de su modelo, así como la frontera de decisión.
  2. Agregar alguna métrica de la precisión de su predicción.
  3. Justificar el ajuste propuesto de hiperparámetros

Aprendizaje automático

Actividad individual

oscarrosete.com

oscarrosete.com

Introducción

Las redes neuronales artificiales (ANNs) son herramientas fundamentales del machine learning, utilizadas en una variedad de de formas para el logro de objetivos tales como reconocimiento de imágenes, procesamiento natural de lenguaje, entre otros

 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Introducción

​Las ANNs aprenden de manera similar a otros algoritmos, su principio es el entrenamiento basado en datos.

Su utilización recomendada es en conjuntos de datos donde es difícil identificar la relación entre lo distintos atributos.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Introducción

Para tener un mejor entendimiento es recomendable ver el contexto general de composición y clasificación de algoritmos de aprendizaje automático.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Introducción

Deep learning es el nombre dado a algoritmos que utilizan AANs en distintas arquitecturas para alcanzar un objetivo.

 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Introducción

Para su estudio podemos recurrir al ciclo de vida del aprendizaje automático.

Un problema necesita identificarse, los datos deben de ser recolectados, entendidos y preparados, entonces el modelo de ANN sera probado y mejorado si es necesario.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Inspiración

Se encuentran inspiradas en fenómenos naturales, en este caso el cerebro y el sistema nervioso. El sistema nervioso es una estructura biológica que nos permite sentir sensaciones y es la base de la operación del cerebro. 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Inspiración

Las redes neuronales consisten de neuronas interconectadas que comparten información utilizando señales eléctricas y químicas.

Las neuronas pasan información a otras neuronas y ajustan la información para cumplir una función.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Inspiración

Cuando tomas un vaso y tomas agua, millones de neuronas procesan la intención de lo que quieres realizar, la acción física para lograrlo e inclusive te retroalimentan de si fuiste exitoso.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Inspiración

Pensemos en los niños aprendiendo a beber del vaso. Empiezan con mucha dificultad, tirando el vaso. Posteriormente aprenden a sostenerlo con dos  manos,  gradualmente aprenden a sostenerlo con una sola mano y beber sin problemas.

El proceso dura meses, y es un ejemplo de aprendizaje basado en práctica o entrenamiento.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Inspiración

La figura muestra un modelo simplificado en el que se reciben entradas (estímulos), se procesan a través de la red neuronal y se provee una salida o respuesta.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Inspiración

Simplificado, una neurona consiste de dendritas que reciben señales de otras neuronas; un cuerpo de celda y un núcleo que activa y ajusta la señal; un axón que comparte la señal a otras neuronas; y sinapsis que ajusta la señal antes de pasarla a otras dendritas de neuronas.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Clasificación

Aproximadamente 90 billones de neuronas trabajan juntas para obtener nuestro nivel de inteligencia.

Aunque las ANNS están inspiradas en las redes neuronales biológicas, no son representaciones idénticas ya que todavía se encuentra en investigación el sistema. nervioso.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Perceptron

La neurona es un elemento fundamental en el cerebro y sistema nervioso, acepta entradas de otras neuronas, procesa y transfiere los resultados a otras neuronas conectadas.

Las redes neuronales artificiales tienen como concepto fundamental el perceptron, la representación lógica de una neurona biológica.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Perceptron

Los perceptrones también reciben entradas (dendritas), modifican estas entradas con pesos (weights) como la sinapsis,  procesan las entradas con pesos (como el núcleo y celda) y entregan una salida (axón).

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Componentes del perceptrón

  • Entradas (inputs)—Describe los valores de entrada, en una neurona sería la señal de entrada.
  • Pesos (weights)—Representan la sinapsis, influencian la intensidad de una entrada en la respuesta de la salida.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

  • Nodo oculto (hidden node)—Suma los valores con sus respectivos pesos de entrada y aplica la función de activación al resultado.
  • Salida—Describe la salida final del perceptrón

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Supongamos que somos agentes de bienes raíces intentando determinar si un departamento sera rentado el siguiente mes, utilizando su dimensión y precio.

Asumimos que un perceptrón ya fue entrenado, es decir, sus pesos fueron ajustados.

Los pesos representan las relaciones e influencia de las variables de entrada.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

La figura muestra un perceptrón entrenado para clasificar si un departamento sera rentado. Las entradas representan el precio y dimensiones del departamento. El precio y dimensiones máximas son de $8,000 y 80 metros cuadrados.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

La salida del perceptron es la probabilidad de que sea rentado el departamento.

Los pesos, la función de suma y la función de activación son clave para lograr la predicción.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Utilizando el conocimiento del funcionamiento del perceptron, calculemos la salida.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Redes neuronales artificiales

Utilizando el conocimiento del funcionamiento del perceptron, calculemos la salida.

oscarrosete.com

oscarrosete.com

Un ejemplo de implementación de una arquitectura ANN puede ser la clasificación de si sucederá una colisión o no utilizando los atributos con los que cuentan.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Los atributos en el conjunto de datos deben ser entradas y la clase que buscamos predecir la salida.

 

Los nodos de entrada serán la velocidad, calidad del terreno, rango de visión, experiencia total; el nodo de salida será si habrá colisión.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Como en otros algoritmos, la preparación de los datos es importante para lograr una clasificación exitosa.

 

El principal reto es representar datos de manera adecuada, por ejemplo representar velocidad y rango de visión, no se puede comparar 65 km/h y visión de 36 grados con una ANN.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Como en otros algoritmos, la preparación de los datos es importante para lograr una clasificación exitosa.

Redes neuronales artificiales

Escalar vs Normalizar

oscarrosete.com

oscarrosete.com

¿Por qué escalamos los datos?

Imagina que estás viendo los precios de algunos productos tanto en yenes como en dólares estadounidenses. Un dólar estadounidense vale alrededor de 100 yenes, pero si no escala sus precios, los algoritmos como SVM o KNN (k-Nearest Neighbor) considerarán una diferencia de precio de 1 yenes tan importante como una diferencia de 1 dólar estadounidense.

 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Una manera de escalar datos para poder compararlos es utilizar el enfoque min-max, que busca escalar la totalidad de datos de 0 a 1.

También se reduce sesgo en datos de entrada grande, considerando los valores máximos y mínimos para cada atributo.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Los datos seleccionados son los siguientes:

  • Velocidad—La velocidad mínima es 0 que significa que el carro no se mueve, la máxima 120, asumiendo limite legal promedio.
  • Calidad del terreno—Valor mínimo 0 y valor máximo 10.
  • Grado de visión—El valor máximo representaría visión total de 360, el valor mínimo es 0.
  • Experiencia del conductor—Consideraremos un máximo de 400,00 km de experiencia y mínimo de 0.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El escalamiento Min-max utiliza los valores mínimos y máximos para cada atributo y encuentra el porcentaje del valor actual para el atributo.

La formula es simple: resta el valor mínimo al valor actual y divide entre la diferencia del mínimo y el máximo. 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

La figura muestra el escalamiento para el primer registro de datos:

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

En la figura se muestra la totalidad de los registros escalados, debe notarse que todos los valores se encuentran entre 0 y 1.

Asimismo, para la salida el valor 1 representa una colisión y el valor 0 representa que no hubo colisión.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Redes neuronales

oscarrosete.com

oscarrosete.com

Los aspectos de mayor relevancia de los modelos neuronales son, primeramente, sus arquitecturas, en segundo lugar, la tipología de las unidades de procesamiento, en tercer lugar, el tipo de conexiones de estas unidades o neuronas, en cuarto lugar, los paradigmas del aprendizaje, y para finalizar, la teoría de la información asociada a los algoritmos de aprendizaje. 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El primero de los aspectos nombrados son las arquitecturas, es decir, la forma de las conexiones entre las unidades neuronales.

 

Este aspecto se desarrollará en cursos posteriores enfatizando las similitudes entre las mismas y los modelos econométricos tradicionales. Su forma genera toda una familia de posibles modelos, cuya gran variedad obliga a la vertebración de los mismos mediante clasificaciones o taxonomías. 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

En una primera aproximación, podemos encontrar una clasificación en función de la tipología del output que genera el modelo, divididos en:

 

modelos deterministas y modelos estocásticos

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El segundo aspecto es la tipología existente en las unidades de procesamiento o neuronas. Existen neuronas visibles y neuronas ocultas (hidden).

 

Por neuronas visibles se entienden tanto los inputs (variables exógenas) como los outputs (variables endógenas).

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

En cambio las neuronas ocultas, poseen la función de capturar la representación interna de los datos.

Éstas pueden no estar conectadas directamente con las neuronas visibles.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El tercer aspecto descansa en el tipo de conexiones que se establecen entre las unidades de procesamiento o neuronas.

Así tenemos, en primer lugar, los modelos que se propagan en una sola dirección, denominados feed-forward.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

En segundo lugar, los modelos recurrentes, cuyas conexiones se establecen en todas las direcciones incluso con procesos de realimentación, es decir, las propias neuronas consigo mismas.

Estas últimas son especialmente útiles para captar el comportamiento dinámico en presencia de retardos.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Una ANN entrenada es una red que ha aprendido de los ejemplos y ajustado sus pesos para predecir la clase de los nuevos ejemplos.

 

Para lograr el entrenamiento partimos de una red multicapa con una estructura dada y queremos encontrar los pesos de la red de manera que la función que calcula la red se ajuste lo mejor posible a los ejemplos.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Lo haremos mediante un proceso de actualizaciones sucesivas de los pesos, llamado algoritmo de retropropagación (backpropagation), basado en las mismas ideas de descenso por el gradiente que hemos visto con el perceptrón.

 

El procedimiento de entrenamiento y ajuste de pesos es parte del proceso de backpropagation, sin embargo comenzaremos con entender la propagación hacia delante.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

En la figura se muestra el procedimiento para utilizar o realizar una predicción con una red neuronal artificial entrenada.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Como se menciono previamente, los pasos involucrados en calcular los resultados para los nodos en una ANN son similares a los del perceptron.

 

Se ejecutan operaciones similares en múltiples nodos que trabajan en conjunto; esto resuelve posibles fallas en el perceptrón y permite resolver problemas de mayor complejidad.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El flujo general de forward propagation incluye los siguientes pasos:

1. Ingresa un ejemplo—provee un ejemplo del conjunto de datos para el cual se quiera realizar la predicción.

2. Multiplica las entradas y los pesos—Multiplica cada entrada por cada peso de su conexión a los nodos ocultos.

3. Suma los resultados de las entradas con su respectivo peso para cada nodo oculto.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El flujo general de forward propagation incluye los siguientes pasos:

 

4. Aplica la función de activación a las entradas con su peso aplicado.

5. Suma los resultados de los nodos ocultos.

6. Aplica la función de activación.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Con el propósito de explorar forward propagation, asumiremos que cada ANN ha sido entrenada y los pesos óptimos para cada red han sido encontrados.

La primer caja, tiene un peso de 3.35 relacionado al nodo de entrada de velocidad, -5.82 a calidad de terreno.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Las entradas de la ANN son definidas como X. Cada variable de entrada tendrá un numero identificador, la velocidad es X0, calidad del terreno X1, etc. La salida de la red sera Y, y los pesos W.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El primer paso consiste en encontrar la sumatoria de las entradas por los pesos. 

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

El siguiente paso es calcular el resultado de la función de activación para cada nodo oculto.

En el ejemplo se utiliza una función sigmoide.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

En la figura se muestran las activaciones de cada nodo oculto y los pesos de cada nodo oculto al nodo de salida, para calcular la salida final se suman los resultados de los nodos ocultos y se aplica la función sigmoidea de activación.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Nuestra predicción final para el ejemplo ha sido de 0.00214 (0.214%), la salida es un valor entre 0 y 1 que representa la probabilidad de que ocurra un choque.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Analicemos un segundo ejemplo

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Calculo de función de suma en nodos de la capa oculta

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Al evaluar el ejemplo en nuestra red entrenada se obtiene un riesgo extremadamente alto de choque al ir a alta velocidad en mal terreno y mala visión.

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Redes Neuronales Artificiales

oscarrosete.com

oscarrosete.com

Clasificación

Guideline

 

diferencia rsquared meansquared

 

mediados siglo

complejo->\

union de partes pequeñas colaborando

redes neuronales-->pequeñas neuronas

neurona unidad basica de procesamiento

conexiones de entrada, estimulos externos o valores de entrada, calculo interno y genera valor de salido

Redes neuronales artificiales

oscarrosete.com

oscarrosete.com

Clasificación

la neurona es una funcion matematica

 

suma ponderada de los valores de entrada

peso de conexiones de entrada:de que manera cada variable de entrada afecta la neurona, como toggles para modificar postigvio o negativo las sumas

parametros del modelo

Redes neuronales

oscarrosete.com

oscarrosete.com

Clasificación

tenemos vr?

tenemos nachos?

prediccion

excelente dia o no

 

regresion lineal vs umbral  -> 1 o 0

Redes neuronales

oscarrosete.com

oscarrosete.com

Clasificación

tenemos vr?

tenemos nachos?

prediccion

excelente dia o no

 

regresion lineal vs umbral  -> 1 o 0

jugamos con params hasta encontrar la relacion adecuada

Redes neuronales

oscarrosete.com

oscarrosete.com

Clasificación

regresion lineal vs umbral  -> 1 o 0

coompuerta and

Redes neuronales

oscarrosete.com

oscarrosete.com

Clasificación

regresion lineal vs umbral  -> 1 o 0

coompuerta and

limitacion de una sola neurona cuando tenemos una operacion xor

Redes neuronales

oscarrosete.com

oscarrosete.com

Clasificación

multiples neuronas para resolver problemas mas complejos

un ultimo componente. la funcion de activacion para combinar neuronas y construir redes neuronales

Redes neuronales

oscarrosete.com

oscarrosete.com

La red neuronal

neuronas unidas, misma columna o misma capa

misma informacion de entrada de la capa anterior y lo que generne se va ala capa siguient

Redes neuronales

oscarrosete.com

oscarrosete.com

conocimiento jerarquizado.

 

dos variables de entrada, nachos y vr. una neurona si nos divertiremos o no

nota del siguiente examen?

Redes neuronales

oscarrosete.com

oscarrosete.com

conocimiento jerarquizado.

 

dos variables de entrada, nachos y vr. una neurona si nos divertiremos o no

nota del siguiente examen?

Redes neuronales

oscarrosete.com

oscarrosete.com

conocimiento jerarquizado.

 

motivacion baja, noche del viernes entretenida, estudies poco y salgas mal en el examen

 

mas capas , mas complejo conocimiento, aprendizaje profundo.

 

Redes neuronales

oscarrosete.com

oscarrosete.com

conocimiento jerarquizado.

conexiones secuenciales, problema de regresion lineal

concatenar lineas rectas  son iguales a una sola operacion de una linea recta, colapsaria a una unica neurona. manipulacion no lineal que las distorisione(activacion)

Redes neuronales

Sistemas Inteligentes Semana 27 de Abril

By oscar_rosete

Sistemas Inteligentes Semana 27 de Abril

  • 418