"Data for all and
all for Data"
Perspectivas y Oportunidades en la Web de Datos
Congreso de Ingenierías
18/10/2016
Dr. Jose María Alvarez-Rodríguez
Orizaba, México
Una pregunta...
¿Mujeres políticas nacidas en Orizaba en la segunda mitad del siglo XX?
Otra pregunta...
¿Actrices nacidas en Orizaba en el año 1936?
Otra pregunta...
Latitud, longitud y nombre de lugares cercanos a Orizaba en 200KM con una densidad de población mayor de 100 habitantes por KM2.
Consulta DBPedia
PREFIX dbo: <http://dbpedia.org/ontology/>
SELECT ?name ?birth ?description ?person WHERE {
?person dbo:birthPlace <http://dbpedia.org/resource/Orizaba>.
?person <http://purl.org/dc/terms/subject>
<http://dbpedia.org/resource/Category:Mexican_women_in_politics>.
?person dbo:birthDate ?birth .
?person foaf:name ?name .
?person rdfs:comment ?description .
FILTER (?birth > "1950-01-01"^^xsd:date AND ?birth < "1970-01-01"^^xsd:date).
FILTER (LANG(?description) = 'en') .
}
ORDER BY ?name
Respuesta
Consulta DBPedia
PREFIX dbo: <http://dbpedia.org/ontology/>
SELECT ?name ?birth ?description ?person WHERE {
?person dbo:birthPlace <http://dbpedia.org/resource/Orizaba>.
?person <http://purl.org/dc/terms/subject>
<http://dbpedia.org/resource/Category:Mexican_comedians>.
?person dbo:birthDate ?birth .
?person foaf:name ?name .
?person dbo:alias ?alias .
FILTER (?birth > "1936-01-01"^^xsd:date AND ?birth < "1936-12-31"^^xsd:date).
}
ORDER BY ?name
Respuesta
Consulta DBPedia
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX onto: <http://dbpedia.org/ontology/>
SELECT * WHERE {
?s a onto:Place .
?s geo:lat ?lat .
?s geo:long ?long .
FILTER(
xsd:double(?lat) - xsd:double(19.6613) <= 2 && xsd:double(19.6613) - xsd:double(?lat) <= 2 &&
xsd:double(?long) - xsd:double(-96.8875) <= 2 && xsd:double(-96.8875) - xsd:double(?long) <= 2).
?s <http://dbpedia.org/ontology/PopulatedPlace/populationDensity> ?density.
FILTER(xsd:double(?density) > xsd:double(100)).
}
LIMIT 100
http://bit.ly/2dVGgeh
Respuesta
¡Explosión de datos!
...NO todo es social media!
¿En qué era estamos viviendo?
4ª Revolución Industrial
Fuente: https://goo.gl/images/8dsnlW
Transformación Digital
aplicada a la
Industria
Cyber-Physical Systems
Software
"alma" de los sistemas
Datos
"alimento" de los sistemas
Un ejemplo...
- " driven by exponential increases in computing power and by the availability of vast amounts of data "
- "...growing transparency, consumer engagement, and new patterns of consumer behavior (increasingly built upon access to mobile networks and data )..."
- These technology platforms, rendered easy to use by the smartphone, convene people, assets, and data —thus creating entirely new ways of consuming goods and services.
- New technologies make assets more durable and resilient, while data and analytics are transforming how they are maintained . A world of customer experiences, data-based services, and asset performance through analytics,
- ...
The 4th Industrial Revolution
...algunas preguntas...
¿La compañía de taxis más grande?
¿La gran tienda del mundo?
¿La cadena de hoteles con más habitaciones?
¿La universidad más grande?
¿El medio de noticias con más información?
...y la industria del automóvil?
- Renault/Nissan
- Fiat/Chrysler
- Volkswagen
- Ford
- Daimler
- BMW
- TATA
- GM
- Toyota
- Volvo
- …
-
Intel
-
Microsoft
-
Google
-
Apple
-
Uber
-
Baidu
-
Nokia
-
…
This graphic originally published June 28, 2016. It has since been updated with additional reporting. SOURCE: Data compiled by Bloomberg
ADDITIONAL WORK: John Lippert, Keith Naughton and Cedric Sam
Software
"alma" de los sistemas
Datos
"alimento" de los sistemas
Big Data
¿Seguro?
Según Forbes (2012)...
Según UX-Sears (2012)...
Según Matt Turck (2014)
Según BigDataLandscape ...
Según Matt Turck 2016
... Gartner 2015 Hype Cycle...
Big Data is out!
IoT Platform Citizen Data Scientist Machine Learning NLP & Question Answering ...
¡Big Data ya está en uso!
¿Por ejemplo?
Sofisticación de métodos para:
- Proceso de fabricación
- Servicios post-venta
- Engine Health Management
- ¿IoT en el futuro?
- Localización anónima de viajeros
- Predicción de carga de viajeros
- Manejo de situaciones excepcionales
- Predicción de problemas en la red (predictive analytics)
...De la empresa Teradata...
Supply Chain
Supply Chain
Policía
Crímenes
Eficiencia energética
...
¿Algunas conclusiones iniciales?
Problemas de negocio
Monitorización
Batch vs Tiempo real vs Stream
Eficiencia y mejora
Análisis predictivo
Tecnología
Conceptos Clave
¿Qué es
Big Data?
3v's
vs
8v's
(n+1 v's)
VOLUMEN
VOLUMEN
- Cantidad de datos que se han de procesar
- Crecimiento Continuo
¿Cuál es el tamaño para ser considerado Big Data?
- Al menos 1 TB hasta el orden de PB (en el futuro EB)
- ...pero también dependerá de la calidad
Ejemplo
VARIEDAD
Tipos
- Documentos
- Imágenes
- Vídeos
- Posts en redes sociales
- Datos científicos, geográficos, etc.
Formatos
Estructurado vs
Semi-estructurado
No estructurado
- CSV, TSV, MSExcel
- PNG, JPG, MPEG, etc.
- PDF, HTML, etc.
Acceso
- Ficheros
- Lenguajes de consulta
- Streams
- BBDD
- ...
McKinsey
Tipos de Datos por Sector
VELOCIDAD
Velocidad
Actualización y tipo de procesamiento
-
Batch
-
Periódico
-
Eventos
-
Cercano a tiempo real
-
Tiempo real
Ejemplo
500M de Tweets por día
6000 por segundo de media
VERACIDAD
Veracidad
- Calidad
- Limpieza
- Fuente de datos confiable
- ...
VISCOSIDAD
Viscosidad
- Resistencia a formar parte del flujo de datos
- Capacidad de integración de los datos
- Tipos de procesamiento:
- Stream
- Bus de integración
- Procesamiento de eventos complejos (CEP)
VIRALIDAD
Viralidad
PROPAGACIÓN DE LA INFORMACIÓN
VELOCIDAD Y TIEMPO
VALOR
Valor
Datos estadísticos
Eventos
Hipótesis (estimaciones)
Correlaciones
Variabilidad
Variabilidad
¿Cuán de dinámicos son los datos?
Atomicidad
COMPLEJIDAD
COMPLEJIDAD
¿Cómo conectar ?
¿Cómo correlar ?
¿ Capas ?
¿ Modos ?
...
(Casi)
Todo en uno...
Big Data es...
- Es lo mismo que resolver problemas " Small Data"
- ...pero el disponer de muchos datos implica...
- Nuevas arquitecturas (distribuidas)
- Necesidades de almacenamiento
- Diferentes tipos de procesamiento
- ...
- para resolver problemas existentes con un mejor/nuevo enfoque
Old wine in new bottles!
Referencia oficial
Big Data Working Group en el NIST
NIST SP 1500-1 -- Volume 1: Definitions
NIST SP 1500-2 -- Volume 2: Taxonomies
(Instituto de Estandarización Americano)
¿Por qué
Big Data?
MEJORA EN LAS CAPACIDADES DE ALMACENAMIENTO
MAYOR CAPACIDAD DE PROCESAMIENTO
DISPONIBILIDAD DE DATOS
...para resolver problemas ...
...en diferentes sectores...
...y más...
- Big Data Banking (Capgemini)
- CaixaBank (Accenture)
- PwC estudio en sectores
Otro caso de éxito: Walmart
UC3M y RTVE
- +29M Observaciones
- +26 Métricas
- +350K relaciones
- 6 redes sociales
- +2000 perfiles
- +130K Tweets...
Web de Datos
Web Semántica y RDF
RDF Triples
Información para nosotros
...también para nosotros
y para las máquinas ...
Catálogo Renault UK
...y para las máquinas ...
Uso del vocabulario GoodRelations para catálogos virtuales
Schema.org
- Iniciativa de Google, Bing y Yahoo
- Etiquetado con un vocabulario común para:
- Eventos
- Personas
- ...
- Mejora de la publicación de información y su posterior indexado
- RDFa
- Prueba con Google Rich Snippets...
Linked Data y el modelo 5
Ventajas
- Realización práctica de la Web Semántica.
- Identicación única , uso de HTTP URIs.
- Modelo y acceso estándar .
- Enriquecimiento de recursos, creación de enlaces.
- Estructuración , modelo estándar RDF.
- Expresividad , vocabularios y datasets .
- Reutilización de informacióny datos.
- ...
Aplicación: OSLC
Fuente: Eriksson
Aplicación: OSLC
The Webindex
Public Spending
SPARQL endpoints
Casos de éxito
BBDD relacionales
vs
Web de Datos
Tabla | Grafo |
---|---|
Modelo E/R | Semántica de RDF/OWL |
SQL | SPARQL |
Resumen
Si con un " SMARTPHONE" no eres más " SMART"
Con" BIG DATA " no eres más " BIG "
Es muy importante contextualizar el problema de negocio tanto en necesidades como en nuestras capacidades
No es necesario diseñar/implementar una arquitectura desde el inicio, existen muchas herramientas ya disponibles
Software
Datos
-
Grandes, Enlazados, Abiertos
Industria 4.0
IBM BIG DATA (Predicción)
4x more digital data than all the grains of sand on earth by 2020 #bigdata
https://twitter.com/IBMAnalytics/status/417748100217061377/photo/1
¡Explotemos LOS DATOS!
- Ponente: Dr. Jose María Alvarez-Rodríguez
- Profesor Visitante
- Universidad Carlos III de Madrid
- E-mail: josemaria.alvarez@uc3m.es
- WWW:
Créditos
Data for all and all for Data: Perspectivas y Oportunidades en la Web de Datos
By Jose María Alvarez
Data for all and all for Data: Perspectivas y Oportunidades en la Web de Datos
- 2,525