Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Fonte

Estruturada, Semiestruturada e Não estruturada

📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte

Estruturado: Bancos de dados e Planilhas

Estruturada: Bancos de dados e Planilhas

📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte

Dado

Estruturado: Bancos de dados e Planilhas

Fonte

Dado

Estruturado: Bancos de dados e Planilhas

📍Organizados em tabelas, linhas e colunas, fáceis de consultar.

Fonte

Estruturado: Bancos de dados e Planilhas

Semiestruturada: API, JSON e XML

📍Possuem organização parcial em tags ou chaves, como JSON ou XML.

Fonte

Estruturada

Dado

Semiestruturada: API, JSON e XML

📍Possuem organização parcial em tags ou chaves, como JSON ou XML.

Fonte

Estruturado: Bancos de dados e Planilhas

Não estruturada: Imagem, Áudio, Vídeo e Textos

📍Informações sem formato fixo, como imagens, vídeos, áudios e textos livres.

Fonte

Estruturada

Semiestruturada

Dado

Não estruturada: API, JSON e XML

Estruturado: Bancos de dados e Planilhas

Fonte

Estruturada

Semiestruturada

Não estruturada

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Coleta ou recebimento de dados

Ingestion Tools

Fonte

Estruturada

Semiestruturada

Não estruturada

Ingestion Tools

📍Ferramentas de ingestão:

O DLT Hub foca em simplificar a ingestão e a transformação dos dados, aplicando validações, organização em camadas (Bronze, Silver, Gold) e monitoramento automático, enquanto o Airflow atua como um orquestrador robusto que agenda, controla dependências e gerencia todo o ciclo do pipeline, disparando processos, validando resultados e integrando diferentes etapas.

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Camadas

Landing, Bronze, Silver e Gold

📍No Data Lake, as camadas Landing, Bronze, Silver e Gold organizam a maturidade dos dados.

customer.csv

sale.json

cliente.xlsx

produto_01.png

reuniao.mp4

dialogo.aac

Ingestion Tools

Camada - Landing

📍Recebe os dados brutos diretamente das fontes e armazena no bucket do MinIO

Landing

customer

sale

product

sale_item

Camada

customer.csv

sale.json

cliente.xlsx

produto_01.png

reuniao.mp4

dialogo.aac

Landing

📍Armazena dados limpos e padronizados em formato tabular

📍Apache Spark e Polars são motores de processamento de dados

Bronze

customer

sale

product

sale_item

Camada

customer.csv

sale.json

cliente.xlsx

produto_01.png

reuniao.mp4

dialogo.aac

Landing

📍Processamento dos dados

Bronze

📍Armazena dados limpos e padronizados em formato tabular

Bronze

Silver

customer

sale

product

sale_item

Camada

Landing

📍Enriquece, limpa e padroniza os dados da camada Bronze

📍Processamento dos dados

Gold

customer

sale

product

Bronze

Camada

Landing

Silver

📍Processamento dos dados

📍Reúne dados prontos para análise e tomada de decisão

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Acesso aos dados para análises

Consumo

Gold

Bronze

Camada

Landing

Silver

Consumo

📍Para consumo dos dados nas camadas é necessário um motor de consulta capaz de realizar a leitura nas camadas do datalake

📍Trino é um motor de consulta distribuído que permite acessar e analisar dados de múltiplas fontes (como bancos, data lakes e data warehouses) usando SQL de forma rápida e unificada, sem precisar mover os dados.

Consumo

📍Com o catálogo de dados, e através de ferramentas de análise, BI, machine learning e aplicações, é possível  gerar insights, relatórios e decisões estratégicas a partir dos dados centralizados.

Gold

Bronze

Camada

Landing

Silver

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools

Fase 2 - Potencializando o Datalake

📍Além do uso de ferramentas como Power BI o Datalake por oferecer mais possibilidades através do uso de IA Generativa e Query Editores para utilização em aprendizado de máquina.

Datalake

Fontes

Consumo

Gold

Bronze

Camada

Landing

Silver

Ingestion

Tools