Favio Medrano
Full Stack Developer - Big Data Analyst.
Mtro. Favio Medrano, Dr. Raul Rivera,
Mtro. Jose Lozano, Mtro. Salvador Castañeda,
El problema
Se ha probado que la ejecución de las tareas de
análisis de datos no estandarizados de manera convencional es ineficiente, pues un 80% del esfuerzo se destina a la
recuperación, manejo y distribución de los datos dejando poco tiempo para el análisis y diagnóstico
"Legacy data"
"El objetivo de todos estos datos es ser analizados para producir ciencia"
El problema
"Big Data variety" Los proveedores de datos entregan datos crudos, con distintas escalas espaciales y temporales, distintos formatos (ascii, bases de datos relacionales, grib, hdf, netcdf), metadatos inconsistentes o inexistentes.
¿Como lidiar con los datos apropiadamente en las escalas de tiempo, escalas espaciales, para generar correlaciones entre datos?
Planteamos una plataforma con estándares, métodos y sistemas para el manejo, organización, distribución y visualización de datos georeferenciados.
Acoplamos estándares como el Unidata common data model, Climate and Forecast, Attribute Conventions for Dataset Discovery para la caracterización y descripción homogénea de los datos.
FGDC e ISO 1951-2 Para una descripción universal de los metadatos.
OGC WMS Para la generación dinámica de graficos de mallas de datos sobre mapas.
Opensearch y API’s Restful para búsquedas avanzadas de datos indexados
Opendap y API’s Restful para la consulta remota de datos y entrega de datos en distintos formatos.
Esta plataforma pretende funcionar como intermediario entre proveedores y consumidores de datos, que normaliza los conjuntos de datos con escalas temporales y espaciales uniformes. Esto se logra combinando las convenciones anteriores para la descripción de los datos, mas procesos de minería de datos y accesos remotos.
La intención es, no mover la información, movemos las consultas a los datos.
Plantillas para describir:
Mallas "Grid data"
Muestras discretas "point observation types"
Powered by: Climate and Forecast Conventions, Attribute Conventions for Dataset Discovery
Conjuntos datos virtuales
NCML (XML document)
CDM Dataset
Powered by: Unidata’s Common Data Model, NetCDF Java Library
Catalogo indexado y descubrible
CDM Dataset's
Opendap
Opensearch
OGC WMS
ISO meta
Download
netcdf, ascii, json, matlab, etc
OGC SOS
Front end services
Powered by: Thredds, ERDDAP
Cliente servicios
Powered by: HTML5, Ajax, API's
Gracias..
Conclusiones
By Favio Medrano