Experimentos con Verosimilitud de datos
Cristóbal Silva
Verosimilitud
estadístico de una muestra de
ground truth o "modelo real"
Regresión Lineal
Regresión Lineal
1
2
3
4
Modelo de Bloques (planta)
Regresión Lineal
Regresión Lineal
Regresión Lineal
¿Cómo evaluar otros modelos?
NLL_S | 1996.674 | 1996.819 |
NLL_St | 8319.85244797 | 8319.85244802 |
Regresión Lineal
¿Qué ocurre con más features?
MSE (no-georef) | MSE (georef) | |
---|---|---|
East | 118453.58 | 8.30 |
North | 197697.56 | 8.22 |
S (Sulfur) | 6.65 | 6.57 |
Sr (Strontium) | 86268.77 | 82807.38 |
Proceso Gaussiano
GP
RL
Proceso Gaussiano
GP
RL
Pendiente
- Features Espaciales
- Distancia a centro de masa de oro
- Promedio de oro radial
- Continuar análisis exploratorio
- Probar regresor con prior sobre el parámetro
Features adicionales
- Dist. a Centro de Masa Horizontal
- Dist. a Centro de Masa Vertical
Euclidiana y Mahalanobis(*)
MSE Relativo a la media para cada variable
-0.15
0.25
-0.05
18761
18673
18705
Coef. Corr.
Mean SE
Coefs. de Correlación
Pasos siguientes
- Evaluar verosimilitud dado MSE similar
- Seguir probando features (radiales)
- Se está trabajando en implementación
- Análisis exhaustivo de outliers
- ¿Cómo discriminar?
- Separar modelos
remove outlier
Simulaciones
- Perturbación Local
- 17 simulaciones
- Implausibles
- 20 simulaciones
- Kriging
- 20 simulaciones
- Ruido puro
- 1 "simulación"
Features
- Oro promedio / columna
- Dist. centro de masa x-y
- Dist. centro de masa z
vs. Pert. Local
vs. Kriging
vs. Implausible
(1)
vs. Implausible
(2)
Resumen
Geoquímica Sensible
- Cobalto (Co)
- Cobre (Cu)
- Potasio (K)
- Litio (Li)
- Magnesio (Mg)
- Manganeso (Mn)
❤
... a cambios de M
- Molibdeno (Mo)
- Niquel (Ni)
- Rubidio (Rb)
- Itrio (Y)
- Zinc (Zn)
- WT Weight (?)
vs. Pert. Local
(2)
vs. Kriging
(2)
Módulo Verosimilitud
likelihood
Likelihood
GaussianLike
features
metrics
distance_to_center_of_mass
variable_mean_per_column
...
mean_square_error
residual_sum_of_squares
...
load_model
predict
...
Archivo de Modelo
.model
trained object
Actualmente solo existen dos modelos:
- gch_2features.model
- gch_3features.model
x_training
y_training
x_vars
y_vars
metadata
Ejemplo
>>> # cargar modelo de distancia a centro de masa
>>> likelihood = GaussianLikelihood.load_pretrained('gch_2features.model')
>>> # pre-calcular verosimilitud
>>> input_data = np.ones((677, 3))
>>> likelihood(input_data)
>>> likelihood._negative_log_likelihood(input_data)
>>> likelihood.predict(input_data)
>>> likelihood.sample(input_data)
RuntimeWarning: overflow encountered in exp return np.exp(-nll) array([ inf, inf, inf, inf, 2.85145362e-61, inf, inf, inf, inf, inf, inf, inf])
Verosimilitud
Problema: Estabilidad Numérica
Solución: Evaluar verosimilitud relativa antes de exponenciar
Verosimilitud Relativa
vs. Simulaciones
Implausible | Kriging (v3) | Locally Perturbed |
---|---|---|
1.18e+104 | 8.09e+149 | 1.37 |
6.56e+103 | 5.07e+27 | 1.32 |
8.03e+103 | 1.67e+304 | 1.45 |
1.31e+104 | 9.46e+164 | 1.40 |
1.35e+104 | 1.10e+103 | 1.29 |
5.67e+103 | 1.17e+66 | 1.03 |
1.72e+104 | 5.28e+30 | 1.47 |
2.08e+104 | 1.25e+79 | 1.01 |
2.93e+104 | 1.89e+158 | 1.32 |
2.02e+104 | 2.04e+12 | 1.16 |
Caso 2 features
bm_a_reduced.csv
au_ppm > 0.1
kriging_v3/sim_10.csv
au_ppm > 0.1
kriging_v3/sim_3.csv
au_ppm > 0.1
Pendiente
- Modelos de 2+ features
- Añadir promedio de oro / columna
- Añadir promedio de oro / radio
- Añadir promedio de oro / cono
- Entrenar modelos con datos de sondaje
Modelo de Sondajes
- Número de datos: 14.589
- Features
- Distancia x-y a centro de masa de oro
- Distancia z a centro de masa de oro
Ag | 53 | Sc | 44 |
Au | 3050 | Se | 520 |
Ba | 2 | Sn | 2 |
Be | 635 | Ta | 109 |
Bi | 50 | Te | 44 |
Ca | 333 | Th | 151 |
Cd | 1705 | Tl | 3 |
Co | 1 | U | 55 |
Cu | 1 | Y | 17 |
P | 32 | Zn | 343 |
Hf | 211 | Cs | 43 |
K | 10 | Ge | 1265 |
La | 84 | In | 413 |
Li | 555 | Re | 9010 |
Mg | 110 | Ni | 14 |
Na | 101 | Pb | 1 |
Valores Negativos
Caso Estudio: Cobre
Caso Estudio: Cobre
Caso Estudio: Cobre
Resultados
Generales
Geoquímica Volátil en Sondaje
- -Plata (Ag)
- -Oro (Au)
- Aluminio (Al)
- -Bismuto (Bi)
- Cesio (Ce)
- -Mercurio (Hg)
- Lantano (La)
- Sulfuro (S)
- -Antimonio (Sb)
- Tántalo (Ta)
- Torio (Th)
- Tungsteno (W)
log
log
log
log
log
- Modelos de 2+ features
- Añadir promedio de oro / columna
- Añadir promedio de oro / radio
- Añadir promedio de oro / cono
- Entrenar modelos con datos de sondaje
- Falta exportar modelo comprimido
Pendiente
Modelo
Log-Ley
(sondajes)
Modelos
x escalado | y escalado | log | |
---|---|---|---|
gch.model | ✗ | ✗ | ✗ |
gch_x_scaled.model | ✓ | ✗ | ✗ |
gch_y_scaled.model | ✗ | ✓ | ✗ |
gch_all_scaled.model | ✓ | ✓ | ✗ |
log_gch.model | ✗ | ✗ | ✓ |
Configuración
Task
Generate
Config
Alturas.config
Task
Simulations
config = {
target: ['Au', 'Bi', 'Zn'],
log: True,
scale_x: False,
scale_y: True,
}
Verosimilitud + Sim
1000 | 16 | 200 | 99 | 120 | 10 | 72 |
Ejemplo: 7 escenarios, 5 simulaciones
Verosimilitud + Sim
10,000 escenarios - 5 simulaciones
1
Verosimilitud + Sim
10,000 escenarios - 5 simulaciones
2
3
4
5
Verosimilitud Compuesta
Geoquímica de Superficie
Geoquímica de Sondaje
Verosimilitud Compuesta
5
10,000 escenarios - 4 simulaciones
1
2
3
4
Verosimilitud Comp. + Sim.
Verosimilitud Completa
Likelihood 1 | Likelihood 2 |
---|---|
6.07 | 3.71e -52 |
385.09 | 1.45e -10 |
808.75 | 1000 |
329.59 | 2.38e -9 |
881.508 | 2.9e -111 |
Weights |
---|
6.11e -53 |
3.76e -13 |
1.23 |
7.24e -12 |
3.30e -114 |
(*) Solamente geoquímica de superficie
Verosimilitud Completa
100,000 escenarios - 100 simulaciones
- Verosimilitud 1 (geoquímica superficie)
- Verosimilitud 1 (geoquímica sondaje)
- Verosimilitud 2 (geoquímica superficie)
Todas las verosimilitudes 1 convergen a 999.0 y se arreglan durante el cálculo de verosimilitud 2
segfaults
Cubo de Verosimilitud
min: -30,312.22 | max: -27,995.42
min: 0 | max: 999.99
Log-Likelihood
Likelihood
Tabla de Verosimilitud
coords | centroid_x | centroid_y | centroid_z |
---|---|---|---|
mean | 410,955 | 6,678,787 | 4,567 |
std | 23.42 | 23.75 | 149.48 |
min | 410,911 | 6,678,760 | 4,350 |
max | 410,995 | 6,678,825 | 4,813 |
likelihood | scaled value |
---|---|
mean | 459.47 |
std | 317.96 |
min | 8.55 |
max | 1000.00 |
Escenarios: 10,000
Simulaciones: 10
Datos corresponden a estadísticos luego de hacer sampling de MonteCarlo
log_likelihoods
relativos
Análisis de log-ley vs ley
log_likelihoods
relativos
Cubo de Verosimilitud
likelihood > 1.0
0.51% de todos los bloques
Cubo de Verosimilitud
likelihood > 500.0
0.01% de todos los bloques
Cubo de Verosimilitud
likelihood > 500.0
Cubo de Verosimilitud
likelihood > 500.0
Centros de Masa
Model log-Co
Model log-Co (exp)
Cubo con 3 features
min: -2.78e+10 | max: -2.53e+9
min: 0 | max: 999.99
Log-Likelihood
Likelihood
Centros de Masa
Verosimilitudes
Verosimilitudes
Co_ppm
Verosimilitudes
Cu_ppm
Verosimilitudes
K_ppm
Verosimilitudes
Li_ppm
Verosimilitudes
Mg_pct
Verosimilitudes
Mn_ppm
Verosimilitudes
Mo_ppm
Verosimilitudes
Ni_ppm
Verosimilitudes
Rb_ppm
Verosimilitudes
WT_kg
Verosimilitudes
Y_ppm
Verosimilitudes
Zn_ppm
old_experiments
By crsilva
old_experiments
- 383