Datalake
Fontes
Consumo
Gold
Bronze
Camada

Landing

Silver





Ingestion
Tools




Fonte
Estruturada, Semiestruturada e Não estruturada
📍Organizados em tabelas, linhas e colunas, fáceis de consultar.




Fonte
Estruturado: Bancos de dados e Planilhas




Estruturada: Bancos de dados e Planilhas
📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte
Dado
Estruturado: Bancos de dados e Planilhas




Fonte
Dado
Estruturado: Bancos de dados e Planilhas



📍Organizados em tabelas, linhas e colunas, fáceis de consultar.




Fonte
Estruturado: Bancos de dados e Planilhas

Semiestruturada: API, JSON e XML
📍Possuem organização parcial em tags ou chaves, como JSON ou XML.





Fonte



Estruturada


Dado
Semiestruturada: API, JSON e XML
📍Possuem organização parcial em tags ou chaves, como JSON ou XML.




Fonte
Estruturado: Bancos de dados e Planilhas

Não estruturada: Imagem, Áudio, Vídeo e Textos
📍Informações sem formato fixo, como imagens, vídeos, áudios e textos livres.




Fonte



Estruturada

Semiestruturada

Dado
Não estruturada: API, JSON e XML





Estruturado: Bancos de dados e Planilhas


Fonte



Estruturada

Semiestruturada
Não estruturada
Datalake
Fontes
Consumo
Gold
Bronze
Camada

Landing

Silver





Ingestion
Tools




Coleta ou recebimento de dados
Ingestion Tools


Fonte



Estruturada

Semiestruturada

Não estruturada
Ingestion Tools
📍Ferramentas de ingestão:
O DLT Hub foca em simplificar a ingestão e a transformação dos dados, aplicando validações, organização em camadas (Bronze, Silver, Gold) e monitoramento automático, enquanto o Airflow atua como um orquestrador robusto que agenda, controla dependências e gerencia todo o ciclo do pipeline, disparando processos, validando resultados e integrando diferentes etapas.
Datalake
Fontes
Consumo
Gold
Bronze
Camada

Landing

Silver





Ingestion
Tools




Camadas
Landing, Bronze, Silver e Gold
📍No Data Lake, as camadas Landing, Bronze, Silver e Gold organizam a maturidade dos dados.
customer.csv
sale.json
cliente.xlsx
produto_01.png
reuniao.mp4
dialogo.aac






Ingestion Tools
Camada - Landing
📍Recebe os dados brutos diretamente das fontes e armazena no bucket do MinIO


Landing





customer
sale
product






sale_item

Camada
customer.csv
sale.json
cliente.xlsx
produto_01.png
reuniao.mp4
dialogo.aac






Landing

📍Armazena dados limpos e padronizados em formato tabular
📍Apache Spark e Polars são motores de processamento de dados

Bronze




customer
sale
product






sale_item

Camada
customer.csv
sale.json
cliente.xlsx
produto_01.png
reuniao.mp4
dialogo.aac






Landing

📍Processamento dos dados
Bronze
📍Armazena dados limpos e padronizados em formato tabular


Bronze
Silver



customer
sale




product

sale_item


Camada
Landing
📍Enriquece, limpa e padroniza os dados da camada Bronze




📍Processamento dos dados

Gold



customer
sale



product


Bronze
Camada

Landing

Silver



📍Processamento dos dados
📍Reúne dados prontos para análise e tomada de decisão

Datalake
Fontes
Consumo
Gold
Bronze
Camada

Landing

Silver





Ingestion
Tools




Acesso aos dados para análises
Consumo
Gold
Bronze
Camada

Landing

Silver

Consumo
📍Para consumo dos dados nas camadas é necessário um motor de consulta capaz de realizar a leitura nas camadas do datalake

📍Trino é um motor de consulta distribuído que permite acessar e analisar dados de múltiplas fontes (como bancos, data lakes e data warehouses) usando SQL de forma rápida e unificada, sem precisar mover os dados.


Consumo
📍Com o catálogo de dados, e através de ferramentas de análise, BI, machine learning e aplicações, é possível gerar insights, relatórios e decisões estratégicas a partir dos dados centralizados.




Gold
Bronze
Camada

Landing

Silver

Datalake
Fontes
Consumo
Gold
Bronze
Camada

Landing

Silver





Ingestion
Tools




Fase 2 - Potencializando o Datalake
📍Além do uso de ferramentas como Power BI o Datalake por oferecer mais possibilidades através do uso de IA Generativa e Query Editores para utilização em aprendizado de máquina.






Datalake
Fontes
Consumo
Gold
Bronze
Camada

Landing

Silver





Ingestion
Tools




Datalake
By Vanilton Pinheiro
Datalake
Overview sobre as etapas de elaboração de um Datalake
- 101