Apache Pig

 

¿Qué es Apache Pig?

Pig ​es una plataforma de alto nivel para crear programas MapReduce utilizados en Hadoop. El lenguaje de esta plataforma es llamado Pig Latin.​ Pig Latin abstrae la programación desde el lenguaje Java MapReduce en una notación que hace de MapReduce programación de alto nivel, similar a la de SQL

 

Pig Latin


--Mapeo de datos

datos = LOAD '$nom_file' USING PigStorage(';') as
(TERCERO:chararray,CODSNIES:chararray,NOMBREPROGRAMA:chararray,
PERIODO:chararray,CODIGOASIGNATURA:chararray,ASIGNATURA:chararray,
GRUPOACTUAL:chararray,GRUPOANTERIOR:chararray,FECHACREACION:chararray);


fechas = LOAD '../../data/internos/cancelaciones.csv' USING PigStorage(',') as
(CODIGOPERIODO:chararray,FECHAINICIO:chararray);

datosFiltrados = FILTER datos BY (CODSNIES MATCHES '$snies');

unir = JOIN datosFiltrados BY CODIGOPERIODO LEFT OUTER,fechas BY CODIGOPERIODO;

DUMP C;

DESCRIBE C;


STORE C INTO 'salida' USING PigStorage(';');

¿Cómo usar Pig de manera fácil?

Apache Pig

By Germán Grandas

Apache Pig

Introducción a Apache Pig

  • 574