Conjuntos de datos que debido a su tamaño y complejidad no es posible procesarlo con las tecnologías y metodologías convencionales
[FAN2013]
Un paradigma para permitir la recolección, almacenamiento, gestión, análisis y visualización, potencialmente bajo restricciones de tiempo real, de vastos conjuntos de datos con características heterogéneas.
[ITU-T Y.3600]
Propiedades emergentes en los datos
Valor del hardware de almacenamiento secundario
Modelos algorítmicos "simples" + muchos datos
~
Modelos algorítmicos "complejos" + pocos datos
Capacidad de generación y recolección de datos optimizadas
Volumen
Variedad
Velocidad
Veracidad
Volumen
Variedad
Velocidad
Veracidad
Escala de los datos
Para CISCO, el consumo mensual de internet per capita promedio:
2000: 10 Mb
2008: 1Gb
2015: 7 Gb
2020: 20 Gb
Source: The Zettabyte Era: Trends and Analysis, CISCO, July 2016
Volumen
Variedad
Velocidad
Veracidad
Escala de los datos
Source: Big Data Que Grande sos, Esteban Feuerstein, Fundacion Sadosky, 2014.
Volumen
Variedad
Velocidad
Veracidad
Escala de los datos
Sistema SUBE
18.000 Colectivos registran su ubicación 5 veces por minuto. Se puede almacenar como point en DB Postgres (16 bytes). ¿Cuanta información de Geolocalización genera el sistema por día?
Dia: 1,93 GB
Año: 700 GB
Inicio (Junio 2009): 4,1 TB
Source: Big Data Que Grande sos, Esteban Feuerstein, Fundacion Sadosky, 2014.
Volumen
Variedad
Velocidad
Veracidad
Fuentes de datos
Volumen
Variedad
Velocidad
Veracidad
Flujos de datos
Velocidad en la generación de datos
Velocidad de procesamiento de datos
Velocidad de consumo de datos
Análisis en Real-Time
Trending Topics, Vehículos autónomos, Google Flu Trend
Volumen
Variedad
Velocidad
Veracidad
Confianza en los datos disponibles
Google Flu Trend: ¿Casualidad o modelo?
Las decisiones tomadas a partir de los datos deben tener soporte en datos confiables
¿Como se define esta confianza?
Volumen
Variedad
Velocidad
Veracidad
Problema Estadístico: Correlación Espuria
De acceso publico:
De acceso privado:
Ambari
BigTop
Mesos
Big Data
Data Science
Business intelligence
Data mining
[FAN2013] Fan, W., & Bifet, A. (2013). Mining big data: current status, and forecast to the future. ACM sIGKDD Explorations Newsletter, 14(2), 1-5.
[ITU-T Y.3600] Recommendation ITU-T Y.3600 (2015) | Big data – Cloud computing based requirements and capabilities