Experimentos con Verosimilitud de datos
Cristóbal Silva
Regularización

Regularización

Nuevos datos
Geoquímica de Superficie
| Tipo | Cantidad |
| RockChip | 172 |
| Soil | 3105 |
| Filas | Columnas | |
|---|---|---|
| Pascua | 3277 | 33 |
| Alturas | 1040 | 50 |
(1)
(2)
(1) - Trozo de roca extraído de afloramiento
(2) - Material fino que ha sido desintegrado y levemente transportado naturalmente
Distribución
Espacial

Datos usables

¿Sirve realmente usar datos donde todo es prácticamente 0?
B_ppm no tiene modelo y se remueve
Ambiguedades
As_ppm
As_1EX_ppm
As_1F15_ppm
¿Cuál modelo le corresponde?
Cu_ppm
Cu_1EX_ppm
¿Asumir correspondencia 1:1?
Comparación


Estado Regularización
Normal vs Regularizada
keep_rate = 0.7


Estado Regularización
Normal vs Regularizada
keep_rate = 0.5


Estado Regularización
Normal vs Regularizada
keep_rate = 0.3


Estado Regularización

Normal vs Regularizada
keep_rate = 0.7
log_likelihood > 0 = 1
Promedio (sin regularizar)
Promedio (1 tirada)
-1594.94
-1428.75
Estado Regularización
Normal vs Regularizada
keep_rate = 0.5

log_likelihood > 0 = 0
Estado Regularización
Normal vs Regularizada
keep_rate = 0.3

log_likelihood > 0 = 0
Estado Regularización
Normal vs Regularizada
keep_rate = 0.7
log_likelihood > 0 = 0
10 tosses

Promedio (sin regularizar)
Promedio (10 tiradas)
-1594.94
-1547.98
Simulación 2.0
- Se re-entrenaron modelos con etiquetas generalizadas
- E.g.: Co_1EX_ppm = Co_ppm
- Esto permite hacer validación de columnas al cargar archivos de geoquímica de superficie
- Columnas duplicadas se les tomó promedio
- La interfaz ahora permite un número variable de columnas

Columnas Duplicadas
Input Simulación 2.0
input gch
model
A Compact
A Full
B
x
filtered gch
- Name Filtering
- Column intersection
- Drop NaN
- Clip negatives to 0
likelihood
| Ag_1EX_ppm |
| Ba_1EX_ppm |
| Co_1EX_ppm |
| Fe_1EX_pct |
| Hg_1F15_ppb |
| Mg_1EX_pct |
| Mo_1EX_ppm |
| Ni_1EX_ppm |
| P_1EX_pct |
| Sb_1EX_ppm |
| Ag_ppm |
| Co_ppm |
| Fe_pct |
| P_pct |
| Th_ppm |
| Zn_ppm |
| Ag_ppm |
| Co_ppm |
| Fe_pct |
| P_pct |
Input
Model
Filtered Input



Verosimilitud B

Modelo: bm_b_v1
Nº puntos: 2,325,836
Likelihood > 0.1: 135 (0.006%)
Dist. x: 120m
Dist. y: 105m
Dist. z: 30m
distancia entre máximo y mínimo por eje para casos > 0.1


Generación de Escenarios


Gaussiana
Uniforme
Verosimilitud B
Modelo A vs Modelo B

Dist. x: 135m
Dist. y: 105m
Dist. z: 15m
distancia entre máximo y mínimo por eje para casos > 0.1
Modelo: bm_b_v3
Nº puntos: 2,325,836
Likelihood > 0.1: 109 (0.004%)


Simulaciones B
Usando el modelo de verosimilitud de B
15,000 escenarios
3 simulaciones
bm_b_v3
B_GCH_Full.model
Simulaciones B
Usando el modelo de verosimilitud de B






C
Dos tipos de dato:
- Rock Chip: 305
- Fine Talus: 328
- Se trabajará con RockChip
Geo-química compartida:
- A: 44 elementos
- B: 32 elementos

C

C

C

C

Selección de Modelo
Métrica
- Histograma
Hiper-parámetros
- Nº de Bins (50)
- Rango de Histograma (min-max)
Selección de Modelo

Divergencia KL entre histogramas
Selección de Modelo
Divergencia KL entre histogramas

Simulations
B using A Model
12/30
Observaciones
- Regularizado no cambian las simulaciones

Regularizado

No-Regularizado
B using A
B using A

Simulations
A using B Model
11/30
Observaciones
- La selección de modelo cambia por la no-simetría de la divergencia KL
- Simulaciones parecen tener más ruido
Regularizado
No-Regularizado
A using B


Regularizado
No-Regularizado
A using B





A using B
old_experiments_2
By crsilva
old_experiments_2
- 476