Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Presents: Jacobo G. González León
6th PDTA
Thesis advisors:
- PhD. Miguel Félix Mata Rivera
- PhD. Rolando Menchaca Méndez








Introducción
Caso de estudio: cambio climático.
Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.
Metodología de investigación: análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático.
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Hipótesis
Model
Data
Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.
¿Cómo son estas relaciones?




Modelos en el VSM (Vector Space Model)
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
Dimensiones del VSM

Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).
Supervised modeling approach: mediante la evaluación del modelo, medir la capacidad de la función de aproximación para predecir ciertas categorías o clases de datos.
Unsupervised modeling approach: mediante algún índice interno, encontrar la "estructura natural" del conjunto de datos.




Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).



Vectores:
- preprocessed data, dimensionalidad alta
- embeddings, dimensionalidad reducida
Metodología de investigación:
análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

¿Cómo obtener esta representación reducida?
Nuestra propuesta:
Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático
¿Cómo obtener esta representación reducida?



Nuestra propuesta:
arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Resultados preeliminares:
Entendimiento del caso de estudio



Resultados preeliminares:
Transformación logarítmica al target




Total data dim: (2,371,943; 6)
Resultados preeliminares:
Discretización de la transformación logarítmica al target


Resultados preeliminares:
Subcojuntos estratificados de entrenamiento, prueba, y validación



| Train: 80% | Test: 10% | Val: 10% |
|---|
| Train-I: 40% | Train-II: 40% |
|---|
| Train-IIa: 20% |
|---|
| Train-IIb: 20% |
| Train-Ia: 20% |
|---|
| Train-Ib: 20% |
Resultados preeliminares:
Pipeline de preprocesamiento

Top 5 países:
'china', 'mexico', 'turkey', 'spain', 'morocco',
Top 5 actividades económicas:
'production', 'yield', 'area harvested', 'producing animals/slaughtere', 'stocks',
Top 5 productos:
'eggs hen in shell', 'meat poultry', 'vegetables primary', 'eggs primary, 'meat chicken',
Resultados preeliminares:
VSM con datos preprocesados


Resultados preeliminares:
Autoencoder y el espacio latente


Error de reconstrucción
Arquitectura del autoencoder
-
Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 2
- Number of complete trials: 8
-
Best trial:
- Value: 0.007892153076014048
-
Params:
- fc1_encoder_dim: 88
- fc2_encoder_dim: 48
- fc3_encoder_dim: 24
- latent_space_dim: 16
- fc1_decoder_dim: 48
- fc2_decoder_dim: 48
- fc3_decoder_dim: 88
- optimizer: Adam
- lr: 0.001
- batch_size: 256
Resultados preeliminares:
VSM del espacio latente


Resultados preeliminares:




VSM de los datos preprocesados
VSM del espacio latente
-
Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
-
Best trial:
- Value: 30.5921
-
Params:
- nn_layer_1: 121
- nn_layer_2: 121
- lr: 0.01
- batch_size: 128
-
Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
-
Best trial:
- Value: 13.0232
-
Params:
- nn_layer_1: 67
- nn_layer_2: 121
- lr: 0.001
- batch_size: 256
Resultados preeliminares:
Clasificadores
Clasificador con datos preprocesados
Clasificador con el espacio latente


Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Exactitud de los clasificadores


Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Espacio de búsqueda de la optimización de hyperparámetros de de los clasificadores


Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Espacio de búsqueda de la optimización de hyperparámetros de de los clasificadores


Clasificador con datos preprocesados
Clasificador con el espacio latente
Resultados preeliminares:
Error de aprendizaje en la optimización de hyperparámetros de los clasificadores


Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente
Resultados preeliminares:
Reporte de clasificación




Resultados preeliminares:
Dataviz
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente






Resultados preeliminares:
Match
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente




Resultados preeliminares:
Target vs Prediction
Clasificador con datos de prueba preprocesados
Clasificador con datos de prueba en el espacio latente
Resultados preeliminares:
Clustering: idea principal

Resultados preeliminares:
Clustering: Clase 5


Resultados preeliminares:
Clustering: Clase 5




Prediction
Target




Resultados preeliminares:
Clustering: Clase 5











Resultados preeliminares:
Análisis de Clustering para la clasificación con el espacio latente: Clase 5















Conclusiones
Trabajo a futuro
¡Mejorar reentrenando los módulos!
Baseline
With Embeddings




Añadir estadísticas al análisis de clustering
¡Muchísimas gracias por su tiempo y atención!
🤗
deck
By Goa J
deck
- 58