Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Presents: Jacobo G. González León
6th PDTA
Thesis advisors:
- PhD. Miguel Félix Mata Rivera
- PhD. Rolando Menchaca Méndez
![](https://www.upiita.ipn.mx/images/upiita-logo.png)
![](https://vignette.wikia.nocookie.net/doblaje/images/8/89/LOGOTIPO_IPN.png/revision/latest?cb=20160108235248&format=original&path-prefix=es)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/848972/images/5612173/pasted-from-clipboard.png)
![](https://www.upiita.ipn.mx/images/upiita-logo.png)
![](https://vignette.wikia.nocookie.net/doblaje/images/8/89/LOGOTIPO_IPN.png/revision/latest?cb=20160108235248&format=original&path-prefix=es)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/848972/images/5612173/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/848972/images/8667617/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9523916/pasted-from-clipboard.png)
Introducción
Caso de estudio: cambio climático.
Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.
Metodología de investigación: análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático.
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9524062/pasted-from-clipboard.png)
Hipótesis
Model
Data
Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.
¿Cómo son estas relaciones?
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596863/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596866/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596868/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596875/pasted-from-clipboard.png)
Modelos en el VSM (Vector Space Model)
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
Dimensiones del VSM
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596890/pasted-from-clipboard.png)
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
Supervised modeling approach: mediante la evaluación del modelo, medir la capacidad de la función de aproximación para predecir ciertas categorías o clases de datos.
Unsupervised modeling approach: mediante algún índice interno, encontrar la "estructura natural" del conjunto de datos.
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9559066/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9559068/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596826/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596826/pasted-from-clipboard.png)
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596890/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596863/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596866/pasted-from-clipboard.png)
Vectores:
- preprocessed data, dimensionalidad alta
- embeddings, dimensionalidad reducida
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596924/pasted-from-clipboard.png)
¿Cómo obtener esta representación reducida?
Nuestra propuesta:
Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
¿Cómo obtener esta representación reducida?
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596946/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596980/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596981/pasted-from-clipboard.png)
Nuestra propuesta:
arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596951/pasted-from-clipboard.png)
Resultados preeliminares:
Entendimiento del caso de estudio
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596960/newplot_-_2022-05-27T154446.778.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596966/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596967/pasted-from-clipboard.png)
Resultados preeliminares:
Transformación logarítmica al target
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596969/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596973/newplot_-_2022-05-27T155506.396.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596974/newplot_-_2022-05-27T155521.556.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596975/newplot_-_2022-05-27T155606.622.png)
Total data dim: (2,371,943; 6)
Resultados preeliminares:
Discretización de la transformación logarítmica al target
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596975/newplot_-_2022-05-27T155606.622.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596977/newplot_-_2022-05-27T155731.148.png)
Resultados preeliminares:
Subcojuntos estratificados de entrenamiento, prueba, y validación
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596984/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596985/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596986/pasted-from-clipboard.png)
Train: 80% | Test: 10% | Val: 10% |
---|
Train-I: 40% | Train-II: 40% |
---|
Train-IIa: 20% |
---|
Train-IIb: 20% |
Train-Ia: 20% |
---|
Train-Ib: 20% |
Resultados preeliminares:
Pipeline de preprocesamiento
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596993/pasted-from-clipboard.png)
Top 5 países:
'china', 'mexico', 'turkey', 'spain', 'morocco',
Top 5 actividades económicas:
'production', 'yield', 'area harvested', 'producing animals/slaughtere', 'stocks',
Top 5 productos:
'eggs hen in shell', 'meat poultry', 'vegetables primary', 'eggs primary, 'meat chicken',
Resultados preeliminares:
VSM con datos preprocesados
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597006/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597011/newplot_-_2022-05-27T162302.117.png)
Resultados preeliminares:
Autoencoder y el espacio latente
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597014/newplot_-_2022-05-27T162702.922.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597016/newplot_-_2022-05-27T162801.677.png)
Error de reconstrucción
Arquitectura del autoencoder
-
Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 2
- Number of complete trials: 8
-
Best trial:
- Value: 0.007892153076014048
-
Params:
- fc1_encoder_dim: 88
- fc2_encoder_dim: 48
- fc3_encoder_dim: 24
- latent_space_dim: 16
- fc1_decoder_dim: 48
- fc2_decoder_dim: 48
- fc3_decoder_dim: 88
- optimizer: Adam
- lr: 0.001
- batch_size: 256
Resultados preeliminares:
VSM del espacio latente
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597019/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597021/newplot_-_2022-05-27T163232.943.png)
Resultados preeliminares:
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597026/newplot_-_2022-05-27T163434.855.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597027/newplot_-_2022-05-27T163429.506.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597029/newplot_-_2022-05-27T163535.031.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597031/newplot_-_2022-05-27T163603.694.png)
VSM de los datos preprocesados
VSM del espacio latente
-
Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
-
Best trial:
- Value: 30.5921
-
Params:
- nn_layer_1: 121
- nn_layer_2: 121
- lr: 0.01
- batch_size: 128
-
Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
-
Best trial:
- Value: 13.0232
-
Params:
- nn_layer_1: 67
- nn_layer_2: 121
- lr: 0.001
- batch_size: 256
Resultados preeliminares:
Clasificadores
Clasificador con datos preprocesados
Clasificador con el espacio latente
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588838/newplot__91_.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588894/newplot__93_.png)
Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Exactitud de los clasificadores
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588896/newplot__94_.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588913/newplot__97_.png)
Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Espacio de búsqueda de la optimización de hyperparámetros de de los clasificadores
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588897/newplot__95_.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588916/newplot__98_.png)
Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Espacio de búsqueda de la optimización de hyperparámetros de de los clasificadores
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588899/newplot__96_.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588917/newplot__99_.png)
Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Error de aprendizaje en la optimización de hyperparámetros de los clasificadores
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588926/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588930/pasted-from-clipboard.png)
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente
Resultados preeliminares:
Reporte de clasificación
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588940/newplot_-_2022-05-24T214156.330.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588942/newplot_-_2022-05-24T214213.911.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588951/newplot_-_2022-05-24T214625.618.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588953/newplot_-_2022-05-24T214732.252.png)
Resultados preeliminares:
Dataviz
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588943/newplot_-_2022-05-24T214257.891.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588944/newplot_-_2022-05-24T214330.939.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588945/newplot_-_2022-05-24T214352.606.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588956/newplot_-_2022-05-24T214759.783.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588957/newplot_-_2022-05-24T214826.424.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588959/newplot_-_2022-05-24T214908.551.png)
Resultados preeliminares:
Match
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588968/newplot_-_2022-05-24T215253.303.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588971/newplot_-_2022-05-24T215323.682.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9589022/newplot_-_2022-05-24T222324.440.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9589023/newplot_-_2022-05-24T222359.824.png)
Resultados preeliminares:
Target vs Prediction
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente
Resultados preeliminares:
Clustering: idea principal
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597054/pasted-from-clipboard.png)
Resultados preeliminares:
Clustering: Clase 5
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597056/newplot_-_2022-05-27T165936.569.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597057/newplot_-_2022-05-27T170110.726.png)
Resultados preeliminares:
Clustering: Clase 5
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597061/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597063/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597065/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597066/pasted-from-clipboard.png)
Prediction
Target
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597075/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597076/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597078/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597080/pasted-from-clipboard.png)
Resultados preeliminares:
Clustering: Clase 5
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597070/newplot_-_2022-05-27T170500.458.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597071/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597072/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597090/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597092/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597093/newplot_-_2022-05-27T171724.180.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597085/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597061/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597063/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597065/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597066/pasted-from-clipboard.png)
Resultados preeliminares:
Análisis de Clustering para la clasificación con el espacio latente: Clase 5
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597095/newplot_-_2022-05-27T172348.383.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597096/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597097/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597098/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597099/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597102/newplot_-_2022-05-27T172600.393.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597107/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597108/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597109/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597110/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597111/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9596951/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597031/newplot_-_2022-05-27T163603.694.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9588971/newplot_-_2022-05-24T215323.682.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9597095/newplot_-_2022-05-27T172348.383.png)
Conclusiones
Trabajo a futuro
¡Mejorar reentrenando los módulos!
Baseline
With Embeddings
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9559146/pasted-from-clipboard.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9559104/newplot__72_.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9559140/newplot__86_.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/2058487/images/9559132/newplot__85_.png)
Añadir estadísticas al análisis de clustering
¡Muchísimas gracias por su tiempo y atención!
🤗
deck
By Goa J
deck
- 10