No inicio dos anos 2000 surge tecnologias para análise de dados como Decision Support System (DSS), Planilhas Eletrônicas, Data Marts, Data Mining, Ferramentas On-Line Analytical Processing (OLAP)
1° - Origem dos dados
2° - Digestão dos dados / Integração
2° - Digestão dos dados / Integração de dados
ETL - Extract Transform Load
2° - Digestão dos dados / Integração
ETL ELT (Cloud native)
X
3° - Orquestração dos dados
Tem como objetivo mapear e gerenciar origens e destinos dos dados.
Destaque para o Apache Kafka
Pipeline - #Engenharia de Dados
3° - Orquestração dos dados
Pipeline - #Engenharia de Dados
3° - Orquestração dos dados
1° - Processamento
Os principais objetivos do engenheiro de dados nessa etapa são:
1° - Processamento
ATENÇÃO:
Qual é o tamanho do seus dados?
Processamento
Simples x Distribuído (paralelo)
1° - Processamento
Apache Hadoop (clusterização) - baseado no Google File System (GFS)
1° - Processamento
1° - Processamento
Apache Spark
"É o Hadoop para dados streaming!"
2° - Enriquecimento
Acrescentar e calcular dados externos aos dados brutos
Ex. Clima / Tempo, IBGE, APIs publicas, etc ...
Caso: "ocorrências no período"
Disponibilidade dos dados por meio de informação enriquecida com agregação de contexto.
Outputs...
Outputs...
+ Outputs
Cap 2 - Perspectives on Data Science for Software Engineering
[tradução adaptada]
#1 - Humanos antes de algoritmos
#2 - Tenha um plano para escalar seu pipelines
#3 - Busque obter feedback mais cedo
#4 - Mantenha a mente aberta
Cap 2 - Perspectives on Data Science for Software Engineering
[tradução adaptada]
#5 - Seja inteligente com os algoritmos de ML
#6 - Viva com os dados que você tem em mãos
#7 - Acompanhe o desenvolvimento da suas habilidades e use as "big tools" (ferramentas conceituadas)
Referências:
http://www.cienciaedados.com/cientista-de-dados-x-engenheiro-de-dados/
http://www.cienciaedados.com/carreiras-em-data-science/
http://datascienceacademy.com.br/blog/a-diferenca-entre-cientistas-de-dados-engenheiros-de-dados-estatisticos-e-engenheiros-de-software/
http://datascienceacademy.com.br/blog/fast-data-a-evolucao-do-big-data/
https://www.oreilly.com/ideas/data-engineering-a-quick-and-simple-definition
https://datafloq.com/read/difference-between-data-scientists-data-engineeers/4246#.Wkxyuundymg.twitter
https://www.economist.com/leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data
https://www.edvancer.in/engineering-fresher-get-into-analyticspart-2/
https://www.learnbigdatatools.com/
https://www.alooma.com/blog/what-is-a-data-pipeline
https://www.alooma.com/blog/etl-process-traditional-vs-modern
https://www.softwaretestinghelp.com/best-etl-tools/
https://kafka.apache.org/intro.html
http://storm.apache.org/
https://www.confluent.io/blog/building-real-time-streaming-etl-pipeline-20-minutes/
https://consultoremti.wordpress.com/2014/11/07/o-que-e-bi-e-qual-a-sua-historia/