Arquitectura de análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Presents: Jacobo G. González León

6th PDTA

Thesis advisors:

PhD. Miguel Félix Mata Rivera
PhD. Rolando Menchaca Méndez

Introducción

Caso de estudio: cambio climático.

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

Metodología de investigación: análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático.

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Hipótesis

Model

Data

«La ciencia (ἐπιστήμη) es un juicio verdadero acompañado de razón (λόγος).» Platón, Teeteto, 202, b-c

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

¿Cómo son estas relaciones?

Modelos en el VSM (Vector Space Model)

Dimensiones del VSM

Tesis: encontrar relaciones entre características (indicadores agrícolas) y el cambio de temperatura de los países.

¿Cómo son estas relaciones?

Objetivo principal: encontrar relaciones entre características explicativas (X) y una variable explicada (y).

Supervised modeling approach: mediante la evaluación del modelo, medir la capacidad de la función de aproximación para predecir ciertas categorías o clases de datos.

Unsupervised modeling approach: mediante algún índice interno, encontrar la "estructura natural" del conjunto de datos.

Enfoques y métodos de aprendizaje automático en el VSM

¿Cómo encontrar estas relaciones?

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Representación vectorial:

preprocessed data, dimensionalidad alta
embeddings, dimensionalidad reducida

¿Cómo obtener esta representación reducida?

Flujo del procesamiento

(end-to-end pipeline)

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Metodología de investigación:

análisis de datos estructurados mixtos multivariados de alta dimensionalidad con un enfoque de aprendizaje automático

Preguntas de investigación:

¿Cuál es el preprocesamiento que deberían llevar los datos?
¿Cómo implementar métodos de aprendizaje automático en el flujo de procesamiento de la arquitectura de análisis de datos?
¿Cómo se define la función de aprendizaje del modelo encontrado?

Trabajos relacionados

Por datos : "supervised learning on tabular data"

Open Research Questions:

Information-theoretic Analysis of Encodings.
Spezialized Regularizations.
Novel Processes for Tabular Data Generation.
Interpretablity.
Transfer of Deep Learning Methods to Data Streams.
Data Augmentation for Tabular Data.
Self-supervised Learning.

Borisov, V., Leemann, T., Seßler, K., Haug, J., Pawelczyk, M., & Kasneci, G. (2021). Deep neural networks and tabular data: A survey. arXiv preprint arXiv:2110.01889.

Trabajos relacionados

Por datos : "latent space on tabular data"

Andreas Kopf, Manfred Claassen, Latent representation learning in biology and translational medicine, Patterns, Volume 2, Issue 3, 2021, 100198, ISSN 2666-3899, https://doi.org/10.1016/j.patter.2021.100198.

Resultados preeliminares:

Entendimiento del caso de estudio

Resultados preeliminares:

Transformación logarítmica al target

Total data dim: (2,371,943; 6)

Resultados preeliminares:

Discretización de la transformación logarítmica al target

Resultados preeliminares:

Esquema integrado de las características

Resultados preeliminares:

Preprocesamiento de datos numéricos

Resultados preeliminares:

Preprocesamiento de datos categóricos

Top 5 países:

'china', 'mexico', 'turkey', 'spain', 'morocco',

Top 5 actividades económicas:

'production', 'yield', 'area harvested', 'producing animals/slaughtere', 'stocks',

Top 5 productos:

'eggs hen in shell', 'meat poultry', 'vegetables primary', 'eggs primary, 'meat chicken',

Resultados preeliminares:

Subcojuntos estratificados de entrenamiento, prueba, y validación

Train: 80%	Test: 10%	Val: 10%

Train-I: 40%	Train-II: 40%

Train-IIa: 20%
Train-IIb: 20%

Train-Ia: 20%
Train-Ib: 20%

Resultados preeliminares:

VSM con datos preprocesados

Resultados preeliminares:

Autoencoder y el espacio latente

Error de reconstrucción

Arquitectura del autoencoder

Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 2
- Number of complete trials: 8
- Best trial:
  - Value: 0.007892153076014048
  - Params:
    - fc1_encoder_dim: 88
    - fc2_encoder_dim: 48
    - fc3_encoder_dim: 24
    - latent_space_dim: 16
    - fc1_decoder_dim: 48
    - fc2_decoder_dim: 48
    - fc3_decoder_dim: 88
    - optimizer: Adam
    - lr: 0.001
    - batch_size: 256

Resultados preeliminares:

VSM del espacio latente

Resultados preeliminares:

VSM de los datos preprocesados

VSM del espacio latente

Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
- Best trial:
  - Value: 30.5921
  - Params:
    - nn_layer_1: 121
    - nn_layer_2: 121
    - lr: 0.01
    - batch_size: 128

Study statistics:
- Number of finished trials: 10
- Number of pruned trials: 0
- Number of complete trials: 10
- Best trial:
  - Value: 13.0232
  - Params:
    - nn_layer_1: 67
    - nn_layer_2: 121
    - lr: 0.001
    - batch_size: 256

Resultados preeliminares:

Clasificadores

Clasificador con datos preprocesados