Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Fonte

Estruturada, Semiestruturada e Não estruturada

📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte

Estruturado: Bancos de dados e Planilhas

Estruturada: Bancos de dados e Planilhas

📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte

Dado

Estruturado: Bancos de dados e Planilhas

Fonte

Dado

Estruturado: Bancos de dados e Planilhas

📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte

Estruturado: Bancos de dados e Planilhas

Semiestruturada: API, JSON e XML

📍Possuem organização parcial em tags ou chaves, como JSON ou XML.

Fonte

Estruturada

Dado

Semiestruturada: API, JSON e XML

📍Possuem organização parcial em tags ou chaves, como JSON ou XML.

Fonte

Estruturado: Bancos de dados e Planilhas

Não estruturada: Imagem, Áudio, Vídeo e Textos

📍Informações sem formato fixo, como imagens, vídeos, áudios e textos livres.

Fonte

Estruturada

Semiestruturada

Dado

Não estruturada: API, JSON e XML

Estruturado: Bancos de dados e Planilhas

Fonte

Estruturada

Semiestruturada

Não estruturada

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Coleta ou recebimento de dados

Ingestion Tools

Fonte

Estruturada

Semiestruturada

Não estruturada

Ingestion Tools

📍Ferramentas de ingestão:

O DLT Hub foca em simplificar a ingestão e a transformação dos dados, aplicando validações, organização em camadas (Bronze, Silver, Gold) e monitoramento automático, enquanto o Airflow atua como um orquestrador robusto que agenda, controla dependências e gerencia todo o ciclo do pipeline, disparando processos, validando resultados e integrando diferentes etapas.

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Camadas

Landing, Bronze, Silver e Gold

📍No Data Lake, as camadas Landing, Bronze, Silver e Gold organizam a maturidade dos dados.

customer.csv

sale.json

cliente.xlsx

produto_01.png

reuniao.mp4

dialogo.aac

Ingestion Tools

Camada - Landing

📍Recebe os dados brutos diretamente das fontes e armazena no bucket do MinIO

Landing

customer

sale

product

sale_item

Camada

customer.csv

sale.json

cliente.xlsx

produto_01.png

reuniao.mp4

dialogo.aac

Landing

📍Armazena dados limpos e padronizados em formato tabular

📍Apache Spark e Polars são motores de processamento de dados

Bronze

customer

sale

product

sale_item

Camada

customer.csv

sale.json

cliente.xlsx

produto_01.png

reuniao.mp4

dialogo.aac

Landing

📍Processamento dos dados

Bronze

📍Armazena dados limpos e padronizados em formato tabular

Bronze

Silver

customer

sale

product

sale_item

Camada

Landing

📍Enriquece, limpa e padroniza os dados da camada Bronze

📍Processamento dos dados

Gold

customer

sale

product

Bronze

Camada

Landing

Silver

📍Processamento dos dados

📍Reúne dados prontos para análise e tomada de decisão

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Acesso aos dados para análises

Consumo

Gold

Bronze

Camada

Landing

Silver

Consumo

📍Para consumo dos dados nas camadas é necessário um motor de consulta capaz de realizar a leitura nas camadas do datalake

📍Trino é um motor de consulta distribuído que permite acessar e analisar dados de múltiplas fontes (como bancos, data lakes e data warehouses) usando SQL de forma rápida e unificada, sem precisar mover os dados.

Consumo

📍Com o catálogo de dados, e através de ferramentas de análise, BI, machine learning e aplicações, é possível  gerar insights, relatórios e decisões estratégicas a partir dos dados centralizados.

Gold

Bronze

Camada

Landing

Silver

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Fase 2 - Potencializando o Datalake

📍Além do uso de ferramentas como Power BI o Datalake por oferecer mais possibilidades através do uso de IA Generativa e Query Editores para utilização em aprendizado de máquina.

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Datalake

By Vanilton Pinheiro

Datalake

Overview sobre as etapas de elaboração de um Datalake

  • 101