Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Presents: Jacobo G. González León

6th PDTA

Thesis advisors:

PhD. Miguel Félix Mata Rivera
PhD. Rolando Menchaca Méndez

Introducción

Caso de estudio: cambio climático.

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

Metodología de investigación: análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático.

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Hipótesis

Model

Data

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

¿Cómo son estas relaciones?

Modelos en el VSM (Vector Space Model)

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Dimensiones del VSM

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Supervised modeling approach: mediante la evaluación del modelo, medir la capacidad de la función de aproximación para predecir ciertas categorías o clases de datos.

Unsupervised modeling approach: mediante algún índice interno, encontrar la "estructura natural" del conjunto de datos.

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Vectores:

preprocessed data, dimensionalidad alta
embeddings, dimensionalidad reducida

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

¿Cómo obtener esta representación reducida?

Nuestra propuesta:

Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

¿Cómo obtener esta representación reducida?

Nuestra propuesta:

arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Resultados preeliminares:

Entendimiento del caso de estudio

Resultados preeliminares:

Transformación logarítmica al target

Total data dim: (2,371,943; 6)

Resultados preeliminares:

Discretización de la transformación logarítmica al target

Resultados preeliminares:

Subcojuntos estratificados de entrenamiento, prueba, y validación

Train: 80%	Test: 10%	Val: 10%

Train-I: 40%	Train-II: 40%

Train-IIa: 20%
Train-IIb: 20%

Train-Ia: 20%
Train-Ib: 20%

Resultados preeliminares:

Pipeline de preprocesamiento

Top 5 países:

'china', 'mexico', 'turkey', 'spain', 'morocco',

Top 5 actividades económicas:

'production', 'yield', 'area harvested', 'producing animals/slaughtere', 'stocks',

Top 5 productos:

'eggs hen in shell', 'meat poultry', 'vegetables primary', 'eggs primary, 'meat chicken',

Resultados preeliminares:

VSM con datos preprocesados

Resultados preeliminares:

Autoencoder y el espacio latente

Error de reconstrucción

Arquitectura del autoencoder

Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 2
- Number of complete trials: 8
- Best trial:
  - Value: 0.007892153076014048
  - Params:
    - fc1_encoder_dim: 88
    - fc2_encoder_dim: 48
    - fc3_encoder_dim: 24
    - latent_space_dim: 16
    - fc1_decoder_dim: 48
    - fc2_decoder_dim: 48
    - fc3_decoder_dim: 88
    - optimizer: Adam
    - lr: 0.001
    - batch_size: 256

Resultados preeliminares:

VSM del espacio latente

Resultados preeliminares:

VSM de los datos preprocesados

VSM del espacio latente

Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
- Best trial:
  - Value: 30.5921
  - Params:
    - nn_layer_1: 121
    - nn_layer_2: 121
    - lr: 0.01
    - batch_size: 128

Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
- Best trial:
  - Value: 13.0232
  - Params:
    - nn_layer_1: 67
    - nn_layer_2: 121
    - lr: 0.001
    - batch_size: 256