Introducción a Big Data:

Tecnología, Arquitectura y Casos de Estudio

Dr. Jose María Alvarez-Rodríguez

josem.alvarez@uc3m.es

Noviembre 2015

Contenidos

Introducción
Conceptos Clave
Arquitectura
Tecnología
Casos de Estudio
Web de datos
Tendencias
FAQ
Conclusiones

INTRODUCCIÓN

http://www.beyondanalysis.net/news?s=2013-10-17-why-big-data-is-like-teenage-sex/

¿Seguro?

Según Forbes (2012)...

Según UX-Sears (2012)...

Según Matt Turck (2014)

Según BigDataLandscape...

...Gartner 2015 Hype Cycle...

Big Data is out!

IoT Platform
Citizen Data Scientist
Machine Learning
NLP & Question Answering

...

¡Big Data ya está en uso!

¿Por ejemplo?

Rolls-Royce

Sofisticación de métodos para:

Proceso de fabricación
Servicios post-venta
Engine Health Management
¿IoT en el futuro?

Transporte público en Londres

Localización anónima de viajeros
Predicción de carga de viajeros
Manejo de situaciones excepcionales

Telstra y gestión de redes

Predicción de problemas en la red (predictive analytics)

Test Clínicos, reducción entrada al mercado

Bristol-Myers Squibb

Optimización carga de trabajo en call centers 
Xerox

Impacto del tiempo en los mercados
The Weather Company e IBM

Cupones y descuentos

Kroger

Predicción y mejora de mantenimiento de aviones
Pratt & Whitney, UTC

...De la empresa Teradata...

Personalización e informes de ventas

Ebay

Transporte eficiente y fiable

Siemens

Data Warehouse de múltiples ERPs (basado en SAP)

McCain

Mejora y personalización en las transacciones económicas

NCR

Gestión de donantes, etc.

One Red Cross

Supply Chain

Policía

Crímenes

Eficiencia energética

...

...De la empresa IBM...

...y en España...

Grandes Empresas

EBTs

Formación

Investigación

Eventos

Sectores

Varios másteres impulsados por empresas

Cátedras (ej: UC3M-RTVE)

Proyectos H2020 (ej: Treelogic)

¿Algunas conclusiones iniciales?

Problemas de negocio
Monitorización

Batch vs Tiempo real vs Stream

Eficiencia y mejora
Análisis predictivo

Tecnología

Conceptos Clave

¿Qué es

Big Data?

3v's

8v's

(n+1 v's)

VOLUMEN

Cantidad de datos que se han de procesar
Crecimiento Continuo

¿Cuál es el tamaño para ser considerado Big Data?

Al menos 1 TB hasta el orden de PB (en el futuro EB)
...pero también dependerá de la calidad

Ejemplo

Handling five billion sessions a day – in real time

Twitter

Otro ejemplo

Kafka Tops 1 Trillion Messages Per Day at LinkedIn

VARIEDAD

Tipos

Documentos
Imágenes
Vídeos
Posts en redes sociales
Datos científicos, geográficos, etc.

Formatos

Estructurado vs

Semi-estructurado

No estructurado

CSV, TSV, MSExcel
PNG, JPG, MPEG, etc.
PDF, HTML, etc.

Acceso

Ficheros
Lenguajes de consulta
Streams
BBDD
...

McKinsey

Tipos de Datos por Sector

Ver Informe Completo

VELOCIDAD

Velocidad

Actualización y tipo de procesamiento

```
Batch
```
```
Periódico
```
```
Eventos
```
```
Cercano a tiempo real
```
```
Tiempo real
```

Ejemplo

500M de Tweets por día

6000 por segundo de media

Fuente: http://www.internetlivestats.com/twitter-statistics/

VERACIDAD

Veracidad

Calidad
Limpieza
Fuente de datos confiable
...

VISCOSIDAD

Viscosidad

Resistencia a formar parte del flujo de datos
Capacidad de integración de los datos
Tipos de procesamiento:

Stream
Bus de integración
Procesamiento de eventos complejos (CEP)

VIRALIDAD

Viralidad

PROPAGACIÓN DE LA INFORMACIÓN

VELOCIDAD Y TIEMPO

VALOR

Valor

Datos estadísticos

Eventos

Hipótesis (estimaciones)

Correlaciones

Variabilidad

¿Cuán de dinámicos son los datos?

Atomicidad

COMPLEJIDAD

¿Cómo conectar?

¿Cómo correlar?

¿Capas?

¿Modos?

...

Ejemplo:

Red multimodo y multicapa

(Casi)

Todo en uno...

Infografía de IBM

Big Data es...

Es lo mismo que resolver problemas "Small Data"
...pero el disponer de muchos datos implica...

Nuevas arquitecturas (distribuidas)
Necesidades de almacenamiento
Diferentes tipos de procesamiento
...

para resolver problemas existentes con un mejor/nuevo enfoque

Old wine in new bottles!

Referencia oficial

Big Data Working Group en el NIST

NIST SP 1500-1 -- Volume 1: Definitions

NIST SP 1500-2 -- Volume 2: Taxonomies

(Instituto de Estandarización Americano)

¿Por qué

Big Data?

MEJORA EN LAS CAPACIDADES DE ALMACENAMIENTO

MAYOR CAPACIDAD DE PROCESAMIENTO

DISPONIBILIDAD DE DATOS

...para resolver problemas...

...en diferentes sectores...

...y más...

Otro caso de éxito: Walmart

http://www.walmartlabs.com/category/bigdata/

Arquitectura

Necesidades

Almacenar grandes cantidades de datos
- Caducidad en el tiempo
Integrar fuentes de datos
(Re) Procesar y consultar en
- Batch
- Tiempo real
...para proporcionar servicios de
- Toma de decisiones
- Informes, etc.
....y con capacidades de...
- Escalabilidad
- Tolerancia a fallos
- Replicación

¿Alguna idea?

¿Una BBDD relacional tradicional?

¿Un sistema de procesamiento off-line?

¿Un sistema de Inteligencia de Negocio?

¿OLAP y variantes?

...

Sistemas NoSQL

Key /Value (Tablas)
Documentos
Grafos

Database Landscape

Teorema CAP

"Es imposible para un sistema de computación distribuida garantizar al mismo tiempo":

Consistencia (Consistency)
Disponibilidad (Availability)
Tolerancia a fallos (Partition tolerance)

Ejemplos

AP: Cassandra y CouchDB

CP: HBase y PAXOS

CA: BBDD relacionales

CAP y Big data

http://ofirm.files.wordpress.com/2013/01/scalability-cap-theorem1.png?w=584&h=452

Superando el teorema CAP

Las propiedades ACID de las bases de datos relacionales no encajan demasiado bien con las necesidades de un sistema Big Data 
(almacenar y procesar en ~tiempo real).

http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html

¿Factores Clave?

¿Arquitecturas?

¿Patrones?

Clasificación de IBM

Diferentes Arquitecturas

```
Lambda
```
```
Kappa
```
```
Zetta
```
```
IoT-a
```
```
Polyglot Processing
```

...dependiendo de las necesidades...

Arquitectura Lambda

Nathan Marz

http://lambda-architecture.net/

BATCH Layer

Procesamiento off-line

Todos los datos

Almacenamiento distribuido

Alta latencia

Implementación

Basado en Apache Hadoop

Cloudera Impala

...

SERVING Layer

Indexar y exponer los datos de las distintas vistas

Consultas en tiempo real

Baja-latencia

Implementación

Flink, Spark, Storm, Impala Cloudera, Dremel (Apache Drill), Hortonworks, etc.

Lenguaje de consulta sobre los datos: Pig, SploutSQL, etc.

SPEED Layer

Compensar la latencia de Batch layer (hasta que procese los datos y se pueden eliminar de esta vista)

Procesamiento de streams

Tolerancia a fallos

Diseño modular

Computación continua y distribuida

Implementación

Storm y similares

Ejemplo arquitectura Lambda

Ventajas

¿¿??

Inconvenientes

¿¿??

Arquitectura Kappa

http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html

Ventajas

¿¿??

Inconvenientes

¿¿??

Arquitectura Zetta

http://www.slideshare.net/MapRTechnologies/next-generation-enterprise-architecture-41966097

Arquitectura Zetta en Google

Ventajas

¿¿??

Inconvenientes

¿¿??

Arquitectura IoT-A

http://iot-a.info/

Ventajas

¿¿??

Inconvenientes

¿¿??

Arquitectura Polyglot Processing

http://datadventures.ghost.io/2014/07/06/polyglot-processing/

Ventajas

¿¿??

Inconvenientes

¿¿??

Referencia oficial del NIST

NIST Big Data Reference Architecture Subgroup

5. NIST SP 1500-5 -- Volume 5: Architectures White Paper Survey

6. NIST SP 1500-6 -- Volume 6: Reference Architecture

¿Big Data Management Platforms?

Plataforma PRESTO

¿Revisamos arquitecturas de redes sociales?

¿Facebook sólo "compró" a los usuarios?

Text

450 millones de usuarios
32 ingenieros (1 ingeniero para cada 14 millones de usuarios)
50 billones de mensajes al día
1+ millón de usuarios activos al día
>8000 nodos
>70 M mensajes en Erlang
El 31 de diciembre de 2011->18 billones de mensajes

Infraestructura

Backend
- Erlang
- FreeBSD
- Yaws, lighttpd
- PHP
- Personalización BEAM (VM de Erlang) (BEAM is like Java’s JVM, but for Erlang)
- Personalización de XMPP
Hardware
- SDual Westmere Hex-core (24 logical CPUs);
- 100GB RAM, SSD;
- Dual NIC (public user-facing network, private back-end/distribution);

Lecciones Aprendidas

Erlang Rocks!
Mantener el diseño simple y evolucionar (personalizar)
Mantener el servidor con carga baja
...

Twitter

+150 M de usuarios activos
...
+500 M de tweets por día
- ¿Cuánto cuesta entregar un tweet de Lady Gaga (+31 millones de seguidores)?->5 mins

Twitter

Twitter (2008)

Twitter (¿actual?)

Twitter

Arquitectura Lambda

https://blog.twitter.com/2015/handling-five-billion-sessions-a-day-in-real-time

Linkedin (2003-2005)

Text

http://www.slideshare.net/linkedin/linkedins-communication-architecture

Linkedin (2006)

Linkedin (2008)

Recursos interesantes

Caso de Estudio I

Análisis del grafo social y eventos (extracción de estadísticas)

Caso de Estudio II

Sistema de Recomendación en tiempo real

¿Qué hay que hacer?

Explicar y debatir una arquitectura para estos casos de estudio
Criterios de selección de tecnología
1. Tipo de procesamiento
2. Almacenamiento de datos
3. Latencia
4. Actualización de los datos
5. Caducidad
6. Re-procesamiento
7. Cambios en el código de los algoritmos
8. Otros QoS: SMI framework
9. ...
Inspirarse en algún ejemplo real presente en redes sociales, etc.

Tecnología

Map/Reduce (M/R)

Un modelo de programación...

Procesamiento de datos a gran escala y distribuido
Simple pero restringido
Programación paralela
Extensible
...

Antecedentes

Programación Funcional

Inspirado pero no equivalente

Ejemplo en Python

"Dada una lista de números entre 1 y 50 mostrar sólo los pares"

print filter(lambda x: x % 2 == 0, range(1, 50))

Datos (una lista de números)
Condición (ser par)
Función de filtro
...

Otro ejemplo...

"Calcular la suma de los cuadrados de los números entre 1 y 50"

import operator
reduce(operator.add, map((lambda x: x **2), range(1,50)) , 0)

reduce es equivalente a foldl en otros lenguajes como Haskell
se deben considerar otros aspectos matemáticos (tipo de operador)

Modelo Básico de M/R

MapReduce: The Programming Model and Practice,

SIGMETRICS, Tutorials 2009, Google.

Mapping en M/R

Mapping es una función que crea una lista de salida tras la aplicación de un función a cada elemento de la lista de entrada.

Module 4: MapReduce, Hadoop Tutorial, Yahoo!

Reduce en M/R

Reduce es una función que itera sobre los elementos de entrada para agregarlos en un sólo valor.

Module 4: MapReduce, Hadoop Tutorial, Yahoo!

Flujo en M/R

Module 4: MapReduce, Hadoop Tutorial, Yahoo!

Flujo en M/R

(En detalle)

Module 4: MapReduce, Hadoop Tutorial, Yahoo!

¿Qué es M/R?

Es un modelo de programación  inspirado en programación funcional para resolver problemas mediante un enfoque "divide y vencerás"  con procesamiento distribuido y paralelo.

¿Cuándo utilizar M/R?

Indexado y búsqueda (índices inversos)
Filtrado
Clasificación
Recomendación (clustering o filtrado colaborativo)

Resumen y estadística
Ordenación y "merging"
Distribución de frecuencia
Consultas tipo SQL (group-by, having, etc.)
Procesamiento y generación de gráficos (histogramas)

Algoritmos tipo : Búsqueda en anchura o PageRank,

Consulta

Análisis

Otros

¿Cómo lo utiliza Google?

Indexado y búsqueda a escala web (pre-caché de consultas y resultados)
Clustering para recomendación en Google News
Informes para Google Trends
Procesamiento de imágenes de satélites
Machine translation
Aprendizaje automático
...

Comparación M/R y otros enfoques

MapReduce: The Programming Model and Practice, SIGMETRICS, Turorials 2009, Google.

Evaluación y características M/R

MapReduce: The Programming Model and Practice, SIGMETRICS, Turorials 2009, Google.

Apache Hadoop

The Apache Hadoop software library is a framework that allows for the
distributed processing of large data sets across clusters of computers
using simple programming models.

Hadoop Ecosystem

Otro listado: https://hadoopecosystemtable.github.io/

M/R Ejemplos

https://github.com/chemaar/big-data-course/tree/master/prototypes/mapreduce-intro

Apache Hadoop

M/R en acción

Querying
Summarizing
Analyzing
...

...sobre grandes conjuntos de datos de forma off-line para impulsar procesos on-line.

Escenarios

Resumen e informes agregados
Filtros
Organización de datos (sort, merging, etc.)
Operadores relacionales (join, select, proyección, etc.)
Paso de mensajes iterativos (procesamiento de grafos)
Otros (según la implementación):
- Simulación de sistemas distribuidos
- Cross-correlation
- Metapatrones
- Input/output
- ...
algunos ejemplos con un dump de Twitter...

Contando letras...

Resumen Numérico

Descripción:

Agregar varios valores numéricos mediante alguna función estadística

Objetivo:

Procesar una lista de valores de entrada (números) para obtener un sólo valor y disponer de una medida de alto nivel de un conjunto de datos

Aplicabilidad:

Gestión de datos numéricos
Agrupar datos por un campo determinado

Ejemplos:

Contar, Min/Max, media, desviación típica, etc.

Pseudo-código

 class Mapper
   method Map(recordid id, record r)
      for all term t in record r do
         Emit(term t, count 1)
 
class Reducer
   method Reduce(term t, counts [c1, c2,...])
      sum = 0
      for all count c in [c1, c2,...] do
          sum = sum + c
      Emit(term t, count sum)

Ejemplo-Contar Palabras

...y en Java...

public void map(LongWritable key, Text value, Context context) 
      throws Exception {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            context.write(word, one);
        }
    }
    
public void reduce(Text key, Iterable values, Context context) 
      throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        context.write(key, new IntWritable(sum));
    }

Min/Max

"Dada una lista de tweets en la forma (usuario, fecha y texto) determinar el primer y último comentario de un usuario"

Ejemplo gráfico

Map en Min/Max

public void map(Object key, Text value, Context context)
      throws IOException, InterruptedException, ParseException {
        Map parsed = MRDPUtils.parse(value.toString());
        String strDate = parsed.get(MRDPUtils.CREATION_DATE);
        String userId = parsed.get(MRDPUtils.USER_ID);
        if (strDate == null || userId == null) {
          return;
        }
        Date creationDate = MRDPUtils.frmt.parse(strDate);
        outTuple.setMin(creationDate);
        outTuple.setMax(creationDate);
        outTuple.setCount(1);
        outUserId.set(userId);
        context.write(outUserId, outTuple);
}

Reduce en Min/Max

public void reduce(Text key, Iterable values,
      Context context) throws IOException, InterruptedException {
      result.setMin(null);
      result.setMax(null);
      int sum = 0;
      for (MinMaxCountTuple val : values) {
            if (result.getMin() == null
                  || val.getMin().compareTo(result.getMin()) < 0) {
                  result.setMin(val.getMin());
            }
            if (result.getMax() == null
                  || val.getMax().compareTo(result.getMax()) > 0) {
                  result.setMax(val.getMax());
                  }
                  sum += val.getCount();}
      result.setCount(sum);
      context.write(key, result);
}

Media

Dada una lista de tweets en la forma (usuario, fecha y texto) determinar la media del tamaño del comentario por hora del día

Ejemplo

Map para media

public void map(Object key, Text value, Context context)
      throws IOException, InterruptedException,ParseException {
      Map parsed = 
            MRDPUtils.parse(value.toString());
      String strDate = parsed.get(MRDPUtils.CREATION_DATE);
      String text = parsed.get(MRDPUtils.TEXT);
      if (strDate == null || text == null) {
            return;
      }
      Date creationDate = MRDPUtils.frmt.parse(strDate);
      outHour.set(creationDate.getHours());
      outCountAverage.setCount(1);
      outCountAverage.setAverage(text.length());
      context.write(outHour, outCountAverage);
}

Reduce para media

public void reduce(IntWritable key, Iterable values,
      Context context) throws IOException, InterruptedException {
      float sum = 0;
      float count = 0;
      for (CountAverageTuple val : values) {
            sum += val.getCount() * val.getAverage();
            count += val.getCount();
      }
      result.setCount(count);
      result.setAverage(sum / count);
      context.write(key, result);
}

Resumen Numérico Avanzado

Utilizando PIG

SELECT MIN(numcol1), MAX(numcol1),
COUNT(*) FROM table GROUP BY groupcol2;
b = GROUP a BY groupcol2;
c = FOREACH b GENERATE group, MIN(a.numcol1),
MAX(a.numcol1), COUNT_STAR(a);

Filtrado

Descripción:

Evaluar una condición en cada registro de datos para decidir que se hace con él

Objetivo:

Filtrar registros de datos que no cumplen alguna condición

Aplicabilidad:

Filtrar

Ejemplos:

Vista parcial del dataset, limpieza de datos, monitorización de determinados eventos, selección de muestras, grep distribuido, análisis de registros, consulta y validación de datos, etc.

Pseudo-código

class Mapper
   method Map(recordid id, record r)
      field f = extract(r)
      if predicate (f)       
         Emit(recordid id, value(r))
 
class Reducer
   method Reduce(recordid id, values [r1, r2,...])
      //Whatever      
      Emit(recordid id, aggregate (values))

Grep distribuido

Dada una lista de tweets en la forma (usuario, fecha y texto) determinar los tweets que contienen una determinada palabra.

Ejemplo

Map Grep distribuido

public void map(Object key, Text value, Context context)
      throws IOException, InterruptedException {
      Map parsed = 
            MRDPUtils.parse(value.toString());
      String txt = parsed.get(MRDPUtils.TEXT);
      String mapRegex = ".*\\b"+context.getConfiguration()
            .get("mapregex")+"(.)*\\b.*";
      if (txt.matches(mapRegex)) {
            context.write(NullWritable.get(), value);
      }
}

Usuarios y tweets más largos

Dada una lista de tweets en la forma (usuario, fecha y texto) determinar los 5 usuarios que escriben los tweets más largos.

Ejemplo

Map Tweets más largos

private TreeMap repToRecordMap = new TreeMap();
public void map(Object key, Text value, Context context)
      throws IOException, InterruptedException {
      Map parsed = 
      MRDPUtils.parse(value.toString());
      if (parsed == null) {return;}
      String userId = parsed.get(MRDPUtils.USER_ID);
      String reputation = String.valueOf(parsed.get(MRDPUtils.TEXT).length()); 
      //Max reputation if you write tweets longer
      if (userId == null || reputation == null) {return;}
            repToRecordMap.put(Integer.parseInt(reputation), new Text(value));
            if (repToRecordMap.size() > MAX_TOP) {
                  repToRecordMap.remove(repToRecordMap.firstKey());
            }
        }

Reduce Tweets más largos

public void reduce(NullWritable key, Iterable values,
      Context context) throws IOException, InterruptedException {
            for (Text value : values) {
            Map parsed = MRDPUtils.parse(value.toString());
            repToRecordMap.put(parsed.get(MRDPUtils.TEXT).length(),new Text(value));
            if (repToRecordMap.size() > MAX_TOP) {
                  repToRecordMap.remove(repToRecordMap.firstKey());
                  }
              }
            for (Text t : repToRecordMap.descendingMap().values()) {
                  context.write(NullWritable.get(), t);
            }
}

Filtrado con PIG

 SELECT * FROM table WHERE colvalue < VALUE;
 b = FILTER a BY colvalue < VALUE;< VALUE;

Resumen M/R

Conclusiones

M/R es un modelo de programación
- ...para manejar grandes cantidades de datos off-line
- ...escalabilidad, replicación, tolerancia a fallos, etc.
Apache Hadoop no es una base de datos
Existen muchos proyectos basados en Hadoop
Existen enfoques similares:
- Apache Storm
- Apache Spark
- Apache Flink
- Signal/Collect
...

¿Qué hay después?

Concatenación de trabajos M/R
- En otros frameworks ya superado (ej: Flink)
Optimización de los parámetros del algoritmo
Pipelining con otros lenguajes de programación
Patrones más avanzados
Procesamiento en tiempo real
Problemas actuales: imágenes, etc.
...

Ejemplo completo de

arquitectura Lambda

https://github.com/chemaar/big-data-course/tree/master/prototypes/relatweet

Apache Spark

Apache Flink

vs

http://www.slideshare.net/sbaltagi/flink-vs-spark

Apache Spark

Apache Flink

http://www.slideshare.net/FlinkForward/slim-baltagi-flink-vs-spark

Web de Datos

Una pregunta...

¿Escritores nacidos en Madrid durante el siglo XIX?

Consulta DBPedia

PREFIX dbo: <http://dbpedia.org/ontology/>

SELECT ?name ?birth ?description ?person WHERE {
     ?person dbo:birthPlace :Madrid.
     ?person <http://purl.org/dc/terms/subject> <http://dbpedia.org/resource/Category:Spanish_writers> .
     ?person dbo:birthDate ?birth .
     ?person foaf:name ?name .
     ?person rdfs:comment ?description .
     FILTER (?birth > "1800-01-01"^^xsd:date AND ?birth < "1900-01-01"^^xsd:date).
     FILTER (LANG(?description) = 'en') .
}
ORDER BY ?name

Resultado

http://bit.ly/KuzB9S

Otra pregunta...

Latitud, longitud y nombre de lugares cercanos a Madrid en 200KM con una densidad de población mayor de 100 habitantes por KM2.

Consulta DBPedia

PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> 
PREFIX onto: <http://dbpedia.org/ontology/> 
SELECT * WHERE {
	?s a onto:Place .
	?s geo:lat ?lat .
	?s geo:long ?long .
 FILTER(
	xsd:double(?lat) - xsd:double(40.4) <= 2 && 	xsd:double(40.4) - xsd:double(?lat) <= 2 &&
	xsd:double(?long) - xsd:double(-3.68) <= 2 && 	xsd:double(-3.68) - xsd:double(?long) <= 2).
        ?s <http://dbpedia.org/ontology/PopulatedPlace/populationDensity> ?density.
  FILTER(xsd:double(?density) > xsd:double(100)).
}
LIMIT 100

Resultado

http://bit.ly/1iNh9bc

Web Semántica y RDF

RDF Triples

Información para nosotros

...también para nosotros

y para las máquinas...

http://dbpedia.org/data/Madrid.n3

Catálogo Renault UK

...y para las máquinas...

Uso del vocabulario GoodRelations para catálogos virtuales

Schema.org

Iniciativa de Google, Bing y Yahoo
Etiquetado con un vocabulario común para:
Eventos
Personas
...
Mejora de la publicación de información y su posterior indexado
RDFa
Prueba con Google Rich Snippets...

Resultado

Linked Data y el modelo 5

http://lod-lam.slis.kent.edu/images/linked-data-image.jpg

Ventajas

Realización práctica de la Web Semántica.
Identicación única, uso de HTTP URIs.
Modelo y acceso estándar.
Enriquecimiento de recursos, creación de enlaces.
Estructuración, modelo estándar RDF.
Expresividad, vocabularios y datasets .
Reutilización de informacióny datos.
...

Aplicación: OSLC

Fuente: Eriksson

Ciclos de Vida

SPARQL endpoints

Casos de éxito

BBDD relacionales

Web de Datos

Tabla	Grafo
Modelo E/R	Semántica de RDF/OWL
SQL	SPARQL

Resumen

¿Qué es Big Data?
Arquitectura 
M/R y Hadoop
Tecnología y frameworks
Web de Datos

FAQ

¿Tengo un problema Big Data?

Evaluar de acuerdo a las 3-8 V's
Definir necesidades
Procesamiento
- ¿Batch? ¿Tiempo real ? ¿Ambas?
Almacenamiento
- Tablas, documentos, grafos, etc.
- Frecuencia de actualización
Consulta
- Lenguaje de consulta
Infraestructura
- ¿Local? ¿Cloud Computing?
Seleccionar tecnología

¿Cuál es el coste?

Se puede empezar con las herramientas ya disponibles como código abierto
La clave está en el conocimiento y el modelado del problema
Los datos ya están disponibles
Gratuitos
- http://www.infochimps.com/datasets/wikipedia-articles
- http://www.datasciencecentral.com/profiles/blogs/big-data-sets-available-for-free
Otros de pago
- http://www.infochimps.com/
Se pueden crear
- Infraestructura para procesamiento y "crawling" (http://commoncrawl.org/)

La implementación es cuestión de tiempo y de la tecnología seleccionada

¿Existe alguna suite completa?

Cloudera Impala
Pentaho (ETL)
RapidMiner
MapR
Hortonworks
IBM Watson Analytics
Palantir
Presto
Lambdoop
...

¿Existen oportunidades de negocios?

http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017

¿Existen temas abiertos?

Privacidad
Salto entre modelo matemático y despliegue en arquitectura Big Data
Big Data Governance (¿Semántica?)
Acercar o facilitar Big Data para usuarios finales
Aplicaciones
- Recomendación
- Análisis de sentimiento, etc.
Visualización (D3.js, Highlights.js, etc.
...

...de otra forma...

Algunas notas personales sobre Big Data

http://bit.ly/KAUIHH

¿Cuál es la diferencia con BI?

No es sencillo de hacer una gran diferenciación pero caería en los siguientes puntos:

Big Data: estadística inferencial y low-density información
BI: estadística descriptiva y high-density información

¿Big Data vs HPC?

Big Data trata sobre datos
HPC trata sobre poder computacional

...pero destinados a encontrarse...

http://www.hpcuserforum.com/presentations/tuscon2013/IDCHPDABigDataHPC.pdf

¿Cómo se forma un equipo?

¿Por dónde continuar?

Entender los fundamentos de Big Data (ej: Hadoop, etc.)

Probar y ascender en el conocimiento de herramientas de mayor nivel de abstracción

¿Cursos on-line específicos?

¿Algún libro?

Top libros...

http://www.kdnuggets.com/2015/09/free-data-science-books.html

Tendencias

(además de las de Gartner 2015)

Microservicios y similares

Fuente: http://martinfowler.com/articles/microservices.html

Deep Learning-

Google Tensor Flow

Data Lake

Almacén de datos "en crudo" y en sus formatos nativos hasta que son procesados.

Big Data Management Platforms

Similar a las Cloud Application Management Platforms

Noticia en Noviembre de 2015

Sistemas interactivos para ciencia de Datos

Ej: Jupyter

Mitos

"Yo también quiero Big Data"

Dependiendo del problema se podrán aplicar las técnicas de forma más exitosa.

La selección debería basarse en innovación tecnológica para un proceso en negocio y no en marketing.

"Es sólo un problema técnico(IT)"

Realmente se debe buscar el problema de negocio y de ahí descender a la solución técnica. Ej: Walmart

"No se puede aplicar a grandes empresas por su diversidad"

Realmente el problema reside en la integración de datos y no en la aplicabilidad de las técnicas

"El coste de las herramientas y expertos es muy alto"

Sobre las herramientas e infraestructura ya se ha comentado y sobre los expertos el problema reside en seleccionar el perfil correcto: estadístic@, ingenier@, etc.

y más mitos...

Big data is new
Big data is a commodity
Big data is a problem
Your data is useful only to you
The government isn't interested in your social media data
Big data won't land you in jail
...

Si con un "SMARTPHONE" no eres más "SMART"

Con"BIG DATA" no eres más "BIG"

Es muy importante contextualizar el problema de negocio tanto en necesidades como en nuestras capacidades

No es necesario diseñar/implementar una arquitectura desde el inicio, existen muchas herramientas ya disponibles

...pero...

IBM BIG DATA (Predicción)

4x more digital data than all the grains of sand on earth by 2020 #bigdata

https://twitter.com/IBMAnalytics/status/417748100217061377/photo/1

¡Explotemos Big Data!

Ponente: Dr. Jose María Alvarez-Rodríguez

Profesor Visitante
Universidad Carlos III de Madrid
E-mail: josemaria.alvarez@uc3m.es
WWW:
- http://www.josemalvarez.es

Introducción a Big Data:

Tecnología, Arquitectura y Casos de Estudio

Contenidos

INTRODUCCIÓN

¿Seguro?

Según Forbes (2012)...

Según UX-Sears (2012)...

Según Matt Turck (2014)

Según BigDataLandscape...

...Gartner 2015 Hype Cycle...

Big Data is out!

¡Big Data ya está en uso!

¿Por ejemplo?

Rolls-Royce

Transporte público en Londres

Telstra y gestión de redes

...y en España...

¿Algunas conclusiones iniciales?

Problemas de negocio Monitorización

Eficiencia y mejora Análisis predictivo

Tecnología

Conceptos Clave

¿Qué es

Big Data?

3v's

8v's

(n+1 v's)

VOLUMEN

VOLUMEN

¿Cuál es el tamaño para ser considerado Big Data?

Ejemplo

Handling five billion sessions a day – in real time

Twitter

Otro ejemplo

Kafka Tops 1 Trillion Messages Per Day at LinkedIn

Linkedin

VARIEDAD

Tipos

Formatos

Acceso

McKinsey

Tipos de Datos por Sector

VELOCIDAD

Velocidad

Actualización y tipo de procesamiento

Ejemplo

500M de Tweets por día

6000 por segundo de media

VERACIDAD

Veracidad

VISCOSIDAD

Viscosidad

VIRALIDAD

Viralidad

PROPAGACIÓN DE LA INFORMACIÓN

VELOCIDAD Y TIEMPO

VALOR

Valor

Datos estadísticos

Eventos

Hipótesis (estimaciones)

Correlaciones

Variabilidad

Variabilidad

¿Cuán de dinámicos son los datos?

Atomicidad

COMPLEJIDAD

COMPLEJIDAD

¿Cómo conectar?

¿Cómo correlar?

¿Capas?

¿Modos?

Ejemplo:

Red multimodo y multicapa

(Casi)

Todo en uno...

Infografía de IBM

Big Data es...

Old wine in new bottles!

Referencia oficial

Problemas de negocio
Monitorización

Eficiencia y mejora
Análisis predictivo