Big Data

definición

Conjuntos de datos que debido a su tamaño y complejidad no es posible procesarlo con las tecnologías y metodologías convencionales

[FAN2013]

DEFINICIÓN

Un paradigma para permitir la recolección, almacenamiento, gestión, análisis y visualización, potencialmente bajo restricciones de tiempo real, de vastos conjuntos de datos con características heterogéneas.

 

[ITU-T Y.3600]

Concepto de big data

Propiedades emergentes en los datos

Concepto de big data

Valor del hardware de almacenamiento secundario

Concepto de big data

Modelos algorítmicos "simples" + muchos datos

~

Modelos algorítmicos "complejos" + pocos datos

Concepto de big data

Capacidad de generación y recolección de datos optimizadas

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Escala de los datos

 

Para CISCO, el consumo mensual de internet per capita promedio:

2000: 10 Mb

2008: 1Gb

2015: 7 Gb

2020: 20 Gb

 

Source: The Zettabyte Era: Trends and Analysis, CISCO, July 2016

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Escala de los datos

 

  • El Colisionador del CERN generó en 2012 40TB/Seg
  • Un Airbus A380 genera 640 TB por vuelo
  • Twitter genera 12 TB de datos por día
  • La bolsa de Nueva York genera 1 TB por día.
  • Una cosechadora genera 5.000 datos por hectárea por pasada.

Source: Big Data Que Grande sos, Esteban Feuerstein, Fundacion Sadosky, 2014.

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Escala de los datos

Sistema SUBE

18.000 Colectivos registran su ubicación 5 veces por minuto. Se puede almacenar como point en DB Postgres (16 bytes). ¿Cuanta información de Geolocalización genera el sistema por día?

Dia: 1,93 GB

Año: 700 GB

Inicio (Junio 2009): 4,1 TB

Source: Big Data Que Grande sos, Esteban Feuerstein, Fundacion Sadosky, 2014.

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Fuentes de datos

 

  • Integración de datos de orígenes diversos
  • Medir la popularidad de una persona pública midiendo el impacto de publicaciones relacionadas en varias Redes Sociales.
  • Formatos (Texto, audio, video, imágenes, información georeferencial).
  • IoT (sensores, RFID).

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Flujos de datos

 

Velocidad en la generación de datos

Velocidad de procesamiento de datos

Velocidad de consumo de datos

 

Análisis en Real-Time

 

Trending Topics, Vehículos autónomos, Google Flu Trend

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Confianza en los datos disponibles

 

Google Flu Trend: ¿Casualidad o modelo?

 

Las decisiones tomadas a partir de los datos deben tener soporte en datos confiables

 

¿Como se define esta confianza?

4 V's de big data

Volumen

 

Variedad

 

Velocidad

 

Veracidad

Problema Estadístico: Correlación Espuria

fuentes de datos

De acceso publico:

  • Redes Sociales
  • Open Government
  • Datos Geográficos
  • Toda la Web

De acceso privado:

  • Los datos propios de la organización
    • Existentes por proceso de negocio
    • Generados por las aplicaciones
  • Acceso pago a bases de datos

HADOOP y BIG DATA

PARA entornos de produccion

Ambari

BigTop

Mesos

Disciplinas relacionadas

Big Data

Data Science

Business intelligence

Data mining

referencias

[FAN2013]   Fan, W., & Bifet, A. (2013). Mining big data: current status, and forecast to the future. ACM sIGKDD Explorations Newsletter, 14(2), 1-5.

 

[ITU-T Y.3600] Recommendation ITU-T Y.3600 (2015) | Big data – Cloud computing based requirements and capabilities

Big Data

By Tomas Delvechio

Big Data

Introducción a conceptos de Big Data

  • 822