Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Presents: Jacobo G. González León

6th PDTA

Thesis advisors:

  • PhD. Miguel Félix Mata Rivera
  • PhD. Rolando Menchaca Méndez

Introducción

Caso de estudio: cambio climático.

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

Metodología de investigación: análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático.

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Hipótesis

Model

Data

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

¿Cómo son estas relaciones?

Modelos en el VSM (Vector Space Model)

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Dimensiones del VSM

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Supervised modeling approach: mediante la evaluación del modelo, medir la capacidad de la función de aproximación para predecir ciertas categorías o clases de datos.

Unsupervised modeling approach: mediante algún índice interno, encontrar la "estructura natural" del conjunto de datos.

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Vectores:

  • preprocessed data, dimensionalidad alta
  • embeddings, dimensionalidad reducida

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

¿Cómo obtener esta representación reducida?

Nuestra propuesta:

Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

¿Cómo obtener esta representación reducida?

Nuestra propuesta:

arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Resultados preeliminares:

Entendimiento del caso de estudio

Resultados preeliminares:

Transformación logarítmica al target

Total data dim: (2,371,943; 6)

Resultados preeliminares:

Discretización de la transformación logarítmica al target

Resultados preeliminares:

Subcojuntos estratificados de entrenamiento, prueba, y validación

Train: 80% Test: 10% Val: 10%
Train-I: 40% Train-II: 40%
Train-IIa: 20%
Train-IIb: 20%
Train-Ia: 20%
Train-Ib: 20%

Resultados preeliminares:

Pipeline de preprocesamiento

Top 5 países:

'china', 'mexico', 'turkey', 'spain', 'morocco',

Top 5 actividades económicas:

'production', 'yield', 'area harvested', 'producing animals/slaughtere', 'stocks',

Top 5 productos:

'eggs hen in shell', 'meat poultry', 'vegetables primary', 'eggs primary, 'meat chicken',

Resultados preeliminares:

VSM con datos preprocesados

Resultados preeliminares:

Autoencoder y el espacio latente

Error de reconstrucción

Arquitectura del autoencoder

  • Study statistics:
    • Number of finished trials: 10
    • Number of pruned trials: 2
    • Number of complete trials: 8
    • Best trial:
      • Value: 0.007892153076014048
      • Params:
        • fc1_encoder_dim: 88
        • fc2_encoder_dim: 48
        • fc3_encoder_dim: 24
        • latent_space_dim: 16
        • fc1_decoder_dim: 48
        • fc2_decoder_dim: 48
        • fc3_decoder_dim: 88
        • optimizer: Adam
        • lr: 0.001
        • batch_size: 256

Resultados preeliminares:

VSM del espacio latente

Resultados preeliminares:

 

VSM de los datos preprocesados

VSM del espacio latente

  • Study statistics:
    • Number of finished trials: 10
    • Number of pruned trials: 0
    • Number of complete trials: 10
    • Best trial:
      • Value: 30.5921
      • Params:
        • nn_layer_1: 121
        • nn_layer_2: 121
        • lr: 0.01
        • batch_size: 128
  • Study statistics:
    • Number of finished trials: 10
    • Number of pruned trials: 0
    • Number of complete trials: 10
    • Best trial:
      • Value: 13.0232
      • Params:
        • nn_layer_1: 67
        • nn_layer_2: 121
        • lr: 0.001
        • batch_size: 256

Resultados preeliminares:

 

Clasificadores

Clasificador con datos preprocesados

Clasificador con el espacio latente

Clasificador con datos preprocesados

Clasificador con el espacio latente

Resultados preeliminares:

 

Exactitud de los clasificadores

Clasificador con datos preprocesados

Clasificador con el espacio latente

Resultados preeliminares:

 

Espacio de búsqueda de la optimización de hyperparámetros de de los clasificadores

Clasificador con datos preprocesados

Clasificador con el espacio latente

Resultados preeliminares:

 

Espacio de búsqueda de la optimización de hyperparámetros de de los clasificadores

Clasificador con datos preprocesados

Clasificador con el espacio latente

Resultados preeliminares:

 

Error de aprendizaje en la optimización de hyperparámetros de los clasificadores

Clasificador con datos  de prueba preprocesados

Clasificador con datos de prueba en el espacio latente

Resultados preeliminares:

 

Reporte de clasificación

Resultados preeliminares:

Dataviz

Clasificador con datos  de prueba preprocesados

Clasificador con datos de prueba en el espacio latente

Resultados preeliminares:

Match

Clasificador con datos  de prueba preprocesados

Clasificador con datos de prueba en el espacio latente

Resultados preeliminares:

Target vs Prediction

Clasificador con datos  de prueba preprocesados

Clasificador con datos de prueba en el espacio latente

Resultados preeliminares:

 

Clustering: idea principal

Resultados preeliminares:

 

Clustering: Clase 5

Resultados preeliminares:

 

Clustering: Clase 5

Prediction

Target

Resultados preeliminares:

Clustering: Clase 5

Resultados preeliminares:

Análisis de Clustering para la clasificación con el espacio latente: Clase 5

Conclusiones

Trabajo a futuro

¡Mejorar reentrenando los módulos!

Baseline

With Embeddings

Añadir estadísticas al análisis de clustering

¡Muchísimas gracias por su tiempo y atención!

🤗

deck

By Goa J

deck

  • 10