Apache Spark es un sistema de computación que se basa en Hadoop Map Reduce y que, principalmente, permite dividir o paralelizar el trabajo, ya que normalmente se instala en un clúster de máquina. La idea es que tengamos n máquinas, por ejemplo diez máquinas, y cada una de esas instancias va a tener instalada una versión de Apache Spark.
Sus principales características son las siguientes:
Los componentes principales que conforman el framework son estos:
El caso de un gigante chino. Alibaba compite mano a mano con Amazon. Esta mega compañía de comercio ejecuta uno de los trabajos más grandes de Apache Spark en el mundo. Continuamente se analizan miles de datos de petabytes, lo que equivale a 13,3 años continuos de video en calidad HD. Cada una de las interacciones de los usuarios en Alibaba se muestra en un gráfico grande. Desde este punto, Apache Spark se usa para obtener resultados acerca de sus comportamientos de compra obteniendo resultados precisos y en tiempo real.