El poder de los Datos Abiertos
Sobre mí
Ingeniero Técnico en Informática de Sistemas por la UMA
Más de 10 años de experiencia en el desarrollo software (.NET)
Desarrollo móvil multiplataforma (Xamarin)
¿Por qué doy esta charla?
I Concurso de Reutilización de Datos Abiertos del Ayuntamiento de Málaga
Ganador en App móviles: cleanSpot - Tu punto limpio más cercano!
Parece que los Datos Abiertos no son muy conocidos
Dar una charla motiva a aprender y/o profundizar
¿Qué son los Datos Abiertos?
Datos que las administraciones públicas ponen a nuestra disposición para que los podamos reutilizar
El concepto surgió en el 2007 en EEUU en una reunión de expertos de Internet
8 principios: completos, primarios, oportunos, accesibles, procesables, no discriminatorio, no propietario y libre de licencias
Son un recurso público
¿Cuánto valen los Datos Abiertos?
Ganancia democrática y creación de valor mediante el desarrollo nuevas actividades
Según el ODI el mercado global de Datos Abiertos podría ascender a 5 trillones de dólares
Miles de empresas y millones de empleos en torno a los Datos Abiertos
Datos Abiertos en UE y España
España es el segundo país de la UE en gestión de Datos Abiertos en 2019 según el DESI y ODMR
Impacto en la UE: 200KM€ y 1M de empleos en 2019 y se espera 300KM€ y 2M de empleos en 2025
Legislación: Directiva europea 2019/1024 y Ley 37/2007 y Real Decreto 1495/2011 y NTI
Sectores con gran potencial: agricultura, servicios financieros y seguros, salud, educación, comercio
Tenemos derecho al acceso pero hay condiciones para su reutilización
Cada entidad pública puede decidir bajo qué condiciones es posible proceder a la reutilización de la información
El modo más común es bajo licencias tipo y, generalmente, licencias abiertas
Datos Abiertos en España
En España toda información pública es reutilizable por defecto bajo ciertas condiciones básicas, normalmente la citación de la fuente
Distintas fases para el aprovechamiento de los datos
Fase 0: Scraping o escrapeo de datos. Datos no estructurados a estructurados. Web scraping (ParseHub, Import.io) y PDF scraping (PDFTables, Tabula)
Fase 1: Tratamiento de datos. Mejorar calidad de los datos estructurados. Data cleansing, data wrangling y record linkage. Open Refine y Data Wrangler
Fase 2: Análisis. Clustering o análisis de agrupamiento, análisis de regresión y predictivo. RStudio y Matlab
Fase 3: Visualización. Ayuda a comunicar y comprender la información: Gráficas, mapas, animaciones, etc.
Basados en CKAN
Acceso fácil e intuitivo al catálogo: búsquedas tipo Google y filtrado por categorías, temas, publicador, etc.
Visualización de datos directamente en el portal (mapas) y acceso mediante API REST
Redes federadas de portales
Formato para metadatos: RDF. Consulta sobre éstos usando el lenguaje SPARQL
Formatos: CSV, Excel, JSON, PDF, HTML, etc. Para mapas: KML, KMZ, GeoJSON.
Portal de referencia en España sobre Datos Abiertos
Aglutina todas las iniciativas de Datos Abiertos de España a nivel estatal, autonómico, local y universitario
Más de 300 iniciativas localizables en un mapa y catálogo de datos con más de 27 mil conjuntos
Otros servicios: noticias, disponibilidad de datos, aplicaciones, empresas reutilizadoras, asesoramiento, tutoriales, etc.
Mi experiencia - cleanSpot
Llevo un año trabajando con Datos Abiertos y al principio todo manual
Fase -1: Disponibilidad de los datos. Google Alerts y RSS a datasets
Scraping web: HtmlAgilityPack y XPath
Transformación de datos JSON, KMZ, CSV -> Excel -> SQL. JSONPath, XPath y RegEx
Rastreo y automatizar proceso mediante Azure Functions
Otras aplicaciones
Smart city y movilidad urbana en EU
Cuadro de Mandos de COVID19 - David Bueno Vallejo (CEMI)
Monitorización de bosques del mundo
Situación legal de zonas de marisqueo en Andalucía
Distanciamiento peatonal en Madrid
Futuras mejoras
Más Datos Abiertos y de mayor calidad
Estandarización en conjunto de datos similares
Datos del sector privado, académico y tercer sector
Datos en tiempo real
Mas recursos
Gracias!
El poder de los datos abiertos
By Marcos Martínez Robles
El poder de los datos abiertos
Presentación para el meetup
- 789