A model design for BigData interoperability in multidisciplinary scientific research projects

Mtro. Favio Medrano,  Dr. Raul Rivera,  

Mtro. Jose Lozano, Mtro. Salvador Castañeda,

El problema

Se ha probado que la ejecución de las tareas de
análisis de datos no estandarizados de manera convencional es ineficiente, pues un 80% del esfuerzo se destina a la
recuperación, manejo y distribución de los datos dejando poco tiempo para el análisis y diagnóstico

"Legacy data"

"El objetivo de todos estos datos es ser analizados para producir ciencia"

El problema

"Big Data variety"    Los proveedores de datos entregan datos crudos, con distintas escalas espaciales y temporales, distintos formatos (ascii, bases de datos relacionales, grib, hdf, netcdf), metadatos inconsistentes o inexistentes.  

¿Como lidiar con los datos apropiadamente en las escalas de tiempo, escalas espaciales, para generar correlaciones entre datos?

Planteamos una plataforma con estándares, métodos y sistemas para el manejo, organización, distribución y visualización de datos georeferenciados.

Acoplamos estándares como el Unidata common data model, Climate and Forecast,  Attribute Conventions for Dataset Discovery para la caracterización y descripción homogénea de los datos.

FGDC e ISO 1951-2 Para una descripción universal de los metadatos.

OGC WMS Para la generación dinámica de graficos de mallas de datos sobre mapas.

Opensearch y API’s Restful para búsquedas avanzadas de datos indexados

Opendap y API’s Restful para la consulta remota de datos y entrega de datos en distintos formatos.

Esta plataforma pretende funcionar como intermediario entre proveedores y consumidores de datos, que normaliza los conjuntos de datos con escalas temporales y espaciales uniformes. Esto se logra combinando las convenciones anteriores para la descripción de los datos, mas procesos de minería de datos y accesos remotos.

La intención es, no mover la información, movemos las consultas a los datos.  

Plantillas para describir:

Mallas "Grid data"

  • Lat Lon (2D)
  • Z(Depth/Alt) Lat Lon (3D)
  • Time Z Lat Lon (4D)
  • No regulares y no estructuradas (curvilineas, sigma-z) - ¡Pendiente

Muestras discretas "point observation types"

  • Series tiempo
  • Perfiles
  • Series de tiempo de perfiles
  • Trayectorias
  • Trayectorias de perfiles

Powered by: Climate and Forecast Conventions,  Attribute Conventions for Dataset Discovery

Conjuntos datos virtuales

NCML (XML document)

  • Redefinicion del conjunto de datos.
  • Agregado espacial, temporal, y sub conjuntos.

CDM Dataset

Powered by:  Unidata’s Common Data Model,  NetCDF Java Library

Catalogo indexado y descubrible

CDM Dataset's

Opendap

Opensearch

OGC WMS

ISO meta

Download

netcdf, ascii, json, matlab, etc

OGC SOS

Front end services

Powered by: Thredds, ERDDAP

Cliente servicios 

Powered by: HTML5, Ajax, API's

Gracias..

Conclusiones

  • Ya existe esta plataforma funcional y esta siendo guía para el manejo de datos nuevos proyectos.
  • Este enfoque puede ser utilizado para las comunidades de geociencias.
  • El trabajo de optimización de estos productos esta en fase de desarrollo.
  • Crear herramientas para ayudar a los proveedores de datos a describir los conjuntos de datos.
  • Desarrollo de ontologías en trabajo conjunto para definir relaciones entre conjuntos.

 

ISUM2017-ModeloDistribucion-DatosGeoRef

By Favio Medrano

ISUM2017-ModeloDistribucion-DatosGeoRef

  • 216