Experimentos con Verosimilitud de datos

Cristóbal Silva

Regularización

Regularización

Nuevos datos

Geoquímica de Superficie

Tipo Cantidad
RockChip 172
Soil 3105
Filas Columnas
Pascua 3277 33
Alturas 1040 50

(1)

(2)

(1) - Trozo de roca extraído de afloramiento

(2) - Material fino que ha sido desintegrado y levemente transportado naturalmente

Distribución

Espacial

Datos usables

¿Sirve realmente usar datos donde todo es prácticamente 0?

B_ppm no tiene modelo y se remueve

Ambiguedades

As_ppm

As_1EX_ppm

As_1F15_ppm

¿Cuál modelo le corresponde?

Cu_ppm

Cu_1EX_ppm

¿Asumir correspondencia 1:1?

Comparación

Estado Regularización

Normal vs Regularizada

keep_rate = 0.7

Estado Regularización

Normal vs Regularizada

keep_rate = 0.5

Estado Regularización

Normal vs Regularizada

keep_rate = 0.3

Estado Regularización

Normal vs Regularizada

keep_rate = 0.7

log_likelihood > 0 = 1

Promedio (sin regularizar)

Promedio (1 tirada)

-1594.94

-1428.75

Estado Regularización

Normal vs Regularizada

keep_rate = 0.5

log_likelihood > 0 = 0

Estado Regularización

Normal vs Regularizada

keep_rate = 0.3

log_likelihood > 0 = 0

Estado Regularización

Normal vs Regularizada

keep_rate = 0.7

log_likelihood > 0 = 0

10 tosses

Promedio (sin regularizar)

Promedio (10 tiradas)

-1594.94

-1547.98

Simulación 2.0

  • Se re-entrenaron modelos con etiquetas generalizadas
    • E.g.: Co_1EX_ppm = Co_ppm
    • Esto permite hacer validación de columnas al cargar archivos de geoquímica de superficie
    • Columnas duplicadas se les tomó promedio

 

  • La interfaz ahora permite un número variable de columnas

Columnas Duplicadas

Input Simulación 2.0

input gch

model

A Compact

A Full

B

x

filtered gch

  • Name Filtering
  • Column intersection
  • Drop NaN
  • Clip negatives to 0

likelihood

Ag_1EX_ppm
Ba_1EX_ppm
Co_1EX_ppm
Fe_1EX_pct
Hg_1F15_ppb
Mg_1EX_pct
Mo_1EX_ppm
Ni_1EX_ppm
P_1EX_pct
Sb_1EX_ppm
Ag_ppm
Co_ppm
Fe_pct
P_pct
Th_ppm
​Zn_ppm
Ag_ppm
Co_ppm
Fe_pct
P_pct

Input

Model

Filtered Input

Verosimilitud B

Modelo: bm_b_v1

Nº puntos: 2,325,836

 

Likelihood > 0.1: 135 (0.006%)

Dist. x: 120m

Dist. y: 105m

Dist. z: 30m

distancia entre máximo y mínimo por eje para casos > 0.1

Generación de Escenarios

Gaussiana

Uniforme

Verosimilitud B

Modelo A vs Modelo B

Dist. x: 135m

Dist. y: 105m

Dist. z: 15m

distancia entre máximo y mínimo por eje para casos > 0.1

Modelo: bm_b_v3

Nº puntos: 2,325,836

 

Likelihood > 0.1: 109 (0.004%)

Simulaciones B

Usando el modelo de verosimilitud de B

15,000 escenarios

3 simulaciones

bm_b_v3

B_GCH_Full.model

Simulaciones B

Usando el modelo de verosimilitud de B

C

Dos tipos de dato:

  • Rock Chip: 305
  • Fine Talus: 328
  • Se trabajará con RockChip

Geo-química compartida:

  • A: 44 elementos
  • B: 32 elementos

C

C

C

C

Selección de Modelo

Métrica

  • Histograma

 

Hiper-parámetros

  • Nº de Bins (50)
  • Rango de Histograma (min-max)

Selección de Modelo

Divergencia KL entre histogramas

Selección de Modelo

Divergencia KL entre histogramas

Simulations

B using A Model

12/30

Observaciones

  • Regularizado no cambian las simulaciones

Regularizado

No-Regularizado

B using A

B using A

Simulations

A using B Model

11/30

Observaciones

  • La selección de modelo cambia por la no-simetría de la divergencia KL
  • Simulaciones parecen tener más ruido

Regularizado

No-Regularizado

A using B

Regularizado

No-Regularizado

A using B

A using B

old_experiments_2

By crsilva

old_experiments_2

  • 379