"Data for all and

all for Data"

Perspectivas y Oportunidades en la Web de Datos

Congreso de Ingenierías
18/10/2016
Dr. Jose María Alvarez-Rodríguez
Orizaba, México

Una pregunta...

¿Mujeres políticas nacidas en Orizaba en la segunda mitad del siglo XX?

Otra pregunta...

¿Actrices nacidas en Orizaba en el año 1936?

Otra pregunta...

Latitud, longitud y nombre de lugares cercanos a Orizaba  en 200KM con una densidad de población mayor de 100 habitantes por KM2.

Consulta DBPedia

PREFIX dbo: <http://dbpedia.org/ontology/>

SELECT ?name ?birth ?description ?person WHERE {
     ?person dbo:birthPlace <http://dbpedia.org/resource/Orizaba>.
     ?person <http://purl.org/dc/terms/subject> 
          <http://dbpedia.org/resource/Category:Mexican_women_in_politics>.
     ?person dbo:birthDate ?birth .
     ?person foaf:name ?name .
     ?person rdfs:comment ?description .
     FILTER (?birth > "1950-01-01"^^xsd:date AND ?birth < "1970-01-01"^^xsd:date).
     FILTER (LANG(?description) = 'en') .
   
}
ORDER BY ?name

Respuesta

Consulta DBPedia

PREFIX dbo: <http://dbpedia.org/ontology/>

SELECT ?name ?birth ?description ?person WHERE {
     ?person dbo:birthPlace <http://dbpedia.org/resource/Orizaba>.
     ?person <http://purl.org/dc/terms/subject> 
          <http://dbpedia.org/resource/Category:Mexican_comedians>.
     ?person dbo:birthDate ?birth .
     ?person foaf:name ?name .
     ?person dbo:alias ?alias .
    FILTER (?birth > "1936-01-01"^^xsd:date AND ?birth < "1936-12-31"^^xsd:date).
}
ORDER BY ?name

Respuesta

Consulta DBPedia

PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> 
PREFIX onto: <http://dbpedia.org/ontology/> 
SELECT * WHERE {
	?s a onto:Place .
	?s geo:lat ?lat .
	?s geo:long ?long .
 FILTER(
	xsd:double(?lat) - xsd:double(19.6613) <= 2 && 	xsd:double(19.6613) - xsd:double(?lat) <= 2 &&
	xsd:double(?long) - xsd:double(-96.8875) <= 2 && 	xsd:double(-96.8875) - xsd:double(?long) <= 2).
        ?s <http://dbpedia.org/ontology/PopulatedPlace/populationDensity> ?density.
  FILTER(xsd:double(?density) > xsd:double(100)).
}
LIMIT 100

http://bit.ly/2dVGgeh

Respuesta

¡Explosión de datos!

...NO todo es social media!

¿En qué era estamos viviendo?

4ª Revolución Industrial

Transformación Digital

aplicada a la

Industria

Cyber-Physical Systems

Software

"alma" de los sistemas

Datos

"alimento" de los sistemas

Un ejemplo...

  • " driven by exponential increases in computing power and by the availability of vast amounts of data "
  • "...growing transparency, consumer engagement, and new patterns of consumer behavior (increasingly built upon access to mobile networks and data )..."
  • These technology platforms, rendered easy to use by the smartphone, convene people, assets, and data —thus creating entirely new ways of consuming goods and services.
  • New technologies make assets more durable and resilient, while data and analytics are transforming how they are maintained . A world of customer experiences, data-based services, and asset performance through analytics,
  • ...

The 4th Industrial Revolution

...algunas preguntas...

¿La compañía de taxis más grande?

¿La gran tienda del mundo?

¿La cadena de hoteles con más habitaciones?

¿La universidad más grande?

¿El medio de noticias con más información?

...y la industria del automóvil?

  • Renault/Nissan
  • Fiat/Chrysler
  • Volkswagen
  • Ford
  • Daimler
  • BMW
  • TATA
  • GM
  • Toyota
  • Volvo
  • Intel

  • Microsoft

  • Google

  • Apple

  • Uber

  • Baidu

  • Nokia

This graphic originally published June 28, 2016. It has since been updated with additional reporting. SOURCE: Data compiled by Bloomberg
ADDITIONAL WORK: John Lippert, Keith Naughton and Cedric Sam

Software

"alma" de los sistemas

Datos

"alimento" de los sistemas

Big Data

¿Seguro?

Según Forbes (2012)...

Según UX-Sears (2012)...

Según Matt Turck (2014)

... Gartner 2015 Hype Cycle...

Big Data is out!

IoT Platform
Citizen Data Scientist
Machine Learning
NLP & Question Answering        ...

 

¡Big Data ya está en uso!

¿Por ejemplo?

Sofisticación de métodos para:

  • Localización anónima de viajeros
  • Predicción de carga de viajeros
  • Manejo de situaciones excepcionales
  • Predicción de problemas en la red (predictive analytics)
...De la empresa Teradata...

Supply Chain

Supply Chain

Policía

Crímenes

Eficiencia energética

...

¿Algunas conclusiones iniciales?

Problemas de negocio
Monitorización

Batch vs Tiempo real vs Stream

Eficiencia y mejora
Análisis predictivo

Tecnología

Conceptos Clave

¿Qué es 

Big Data?

3v's

vs

8v's

(n+1 v's)

VOLUMEN

VOLUMEN

  • Cantidad de datos que se han de procesar
  • Crecimiento Continuo

¿Cuál es el tamaño para ser considerado Big Data?

  • Al menos  1 TB hasta el orden de PB (en el futuro EB)
  • ...pero también dependerá de la  calidad

Ejemplo

Twitter

VARIEDAD

Tipos

  • Documentos
  • Imágenes
  • Vídeos
  • Posts en redes sociales
  • Datos científicos, geográficos, etc.

Formatos

Estructurado vs

Semi-estructurado

No estructurado​

 

  • CSV, TSV, MSExcel
  • PNG, JPG, MPEG, etc.
  • PDF, HTML, etc.

 

 

Acceso

  • Ficheros
  • Lenguajes de consulta
  • Streams
  • BBDD
  • ...

McKinsey

Tipos de Datos por Sector

VELOCIDAD

Velocidad

Actualización y tipo de procesamiento

  • Batch
  • Periódico
  • Eventos
  • Cercano a tiempo real
  • Tiempo real   

Ejemplo

500M de Tweets por día

6000 por segundo de media

VERACIDAD

Veracidad

  • Calidad
  • Limpieza
  • Fuente de datos confiable
  • ...

VISCOSIDAD

Viscosidad

  • Resistencia  a formar parte del flujo de datos
  • Capacidad de  integración  de los datos
  • Tipos de procesamiento:
  • Stream
  • Bus de integración
  • Procesamiento de eventos complejos (CEP)

VIRALIDAD

Viralidad

PROPAGACIÓN DE LA INFORMACIÓN

VELOCIDAD Y TIEMPO

VALOR

Valor

Datos estadísticos

Eventos

Hipótesis (estimaciones)

Correlaciones

Variabilidad

Variabilidad

¿Cuán de dinámicos son los datos?

Atomicidad

COMPLEJIDAD

COMPLEJIDAD

¿Cómo conectar ?

¿Cómo correlar ?

¿ Capas ?

¿ Modos ?

...

 

(Casi)

Todo en uno...

Big Data es...

  • Es lo mismo que resolver problemas " Small Data
  • ...pero el disponer de muchos datos implica...
  • Nuevas  arquitecturas  (distribuidas)
  • Necesidades de  almacenamiento
  • Diferentes tipos de  procesamiento
  • ...
  • para resolver   problemas existentes  con un  mejor/nuevo enfoque

Old wine in new bottles!

Referencia oficial

Big Data Working Group en el NIST

NIST SP 1500-1  -- Volume 1: Definitions

  NIST SP 1500-2  -- Volume 2: Taxonomies

 

(Instituto de Estandarización Americano)

¿Por qué

Big Data?

MEJORA EN LAS CAPACIDADES DE ALMACENAMIENTO

MAYOR CAPACIDAD DE PROCESAMIENTO

DISPONIBILIDAD DE DATOS

...para resolver problemas ...

...en diferentes sectores...

...y más...

Otro caso de éxito: Walmart

UC3M y RTVE

  • +29M Observaciones
  • +26 Métricas
  • +350K relaciones
  • 6 redes sociales
  • +2000 perfiles
  • +130K Tweets...

Web de Datos

Web Semántica y RDF

RDF Triples

Información para nosotros

...también para nosotros

y para las máquinas ...

Catálogo Renault UK

...y para las máquinas ...

Uso del vocabulario GoodRelations para catálogos virtuales

Schema.org

  • Iniciativa de Google, Bing y Yahoo
  • Etiquetado con un vocabulario común para:
  • Eventos
  • Personas
  • ...
  • Mejora de la publicación de información y su posterior indexado
  • RDFa
  • Prueba con Google Rich Snippets...

Linked Data y el modelo 5

Ventajas

  • Realización  práctica de la Web Semántica.
  • Identicación única , uso de HTTP URIs.
  • Modelo  y acceso  estándar .
  • Enriquecimiento de recursos, creación de enlaces.
  • Estructuración , modelo estándar RDF.
  • Expresividad , vocabularios y datasets .
  • Reutilización  de informacióny datos.
  • ...

Aplicación: OSLC

Fuente: Eriksson

Aplicación: OSLC

The Webindex

Public Spending

SPARQL endpoints

Casos de éxito

BBDD relacionales

vs

Web de Datos

 

Tabla Grafo
Modelo E/R Semántica de RDF/OWL
SQL SPARQL

Resumen

Si con un " SMARTPHONE" no eres más " SMART"

 

Con" BIG DATA " no eres más " BIG "

Es muy importante  contextualizar el problema de negocio  tanto en necesidades como en nuestras capacidades

No es necesario diseñar/implementar una arquitectura desde el inicio, existen muchas herramientas ya disponibles

Software

Datos

  • Grandes, Enlazados, Abiertos

Industria 4.0

IBM BIG DATA (Predicción)

4x more digital data than all the grains of sand on earth by 2020 #bigdata

https://twitter.com/IBMAnalytics/status/417748100217061377/photo/1

¡Explotemos LOS DATOS!

  • Ponente:  Dr. Jose María Alvarez-Rodríguez 

Créditos

Data for all and all for Data: Perspectivas y Oportunidades en la Web de Datos

By Jose María Alvarez

Data for all and all for Data: Perspectivas y Oportunidades en la Web de Datos

  • 2,540