La introducción que no encontré ni en stackoverflow
Software Engineer @
Todo lo que se cuente aquí es fruto de la experiencia personal (y espero que transferible) de un NO-experto en la materia.
Si escucháis alguna tontería no dejéis de corregirla, please!
Sistema que manipula grandes conjuntos de datos.
* No sabría deciros cuantos "peta gigos" son gran conjunto de datos
Evolución natural de Apache Hadoop
Llevar el programa al dato* en lugar de traer el dato al programa
* como veremos en los ejemplos, esto tiene consecuencias en nuestra forma de programar
http://spideropsnet.com/site1/blog/2014/12/09/igniting-the-spark/
Images © by Martin Fowler
Transformaciones:
Acciones:
git checkout step1
git checkout step2
git checkout step2
git checkout step3
git checkout setp4
git checkout setp4
git checkout step5a, 5b, 5c, 5d, ...5g
El API de Hadoop para leer ficheros
git checkout step6
Trabajando con datos estructurados:
git checkout step7a, 7b