Datalake
Fontes
Consumo
Gold
Bronze
Camada
Landing
Silver
Ingestion
Tools
Fonte
Estruturada, Semiestruturada e Não estruturada
📍Organizados em tabelas, linhas e colunas, fáceis de consultar.
Fonte
Estruturado: Bancos de dados e Planilhas
Estruturada: Bancos de dados e Planilhas
📍Organizados em tabelas, linhas e colunas, fáceis de consultar.
Fonte
Dado
Estruturado: Bancos de dados e Planilhas
Fonte
Dado
Estruturado: Bancos de dados e Planilhas
📍Organizados em tabelas, linhas e colunas, fáceis de consultar.
Fonte
Estruturado: Bancos de dados e Planilhas
Semiestruturada: API, JSON e XML
📍Possuem organização parcial em tags ou chaves, como JSON ou XML.
Fonte
Estruturada
Dado
Semiestruturada: API, JSON e XML
📍Possuem organização parcial em tags ou chaves, como JSON ou XML.
Fonte
Estruturado: Bancos de dados e Planilhas
Não estruturada: Imagem, Áudio, Vídeo e Textos
📍Informações sem formato fixo, como imagens, vídeos, áudios e textos livres.
Fonte
Estruturada
Semiestruturada
Dado
Não estruturada: API, JSON e XML
Estruturado: Bancos de dados e Planilhas
Fonte
Estruturada
Semiestruturada
Não estruturada
Datalake
Fontes
Consumo
Gold
Bronze
Camada
Landing
Silver
Ingestion
Tools
Coleta ou recebimento de dados
Ingestion Tools
Fonte
Estruturada
Semiestruturada
Não estruturada
Ingestion Tools
📍Ferramentas de ingestão:
O DLT Hub foca em simplificar a ingestão e a transformação dos dados, aplicando validações, organização em camadas (Bronze, Silver, Gold) e monitoramento automático, enquanto o Airflow atua como um orquestrador robusto que agenda, controla dependências e gerencia todo o ciclo do pipeline, disparando processos, validando resultados e integrando diferentes etapas.
Datalake
Fontes
Consumo
Gold
Bronze
Camada
Landing
Silver
Ingestion
Tools
Camadas
Landing, Bronze, Silver e Gold
📍No Data Lake, as camadas Landing, Bronze, Silver e Gold organizam a maturidade dos dados.
customer.csv
sale.json
cliente.xlsx
produto_01.png
reuniao.mp4
dialogo.aac
Ingestion Tools
Camada - Landing
📍Recebe os dados brutos diretamente das fontes e armazena no bucket do MinIO
Landing
customer
sale
product
sale_item
Camada
customer.csv
sale.json
cliente.xlsx
produto_01.png
reuniao.mp4
dialogo.aac
Landing
📍Armazena dados limpos e padronizados em formato tabular
📍Apache Spark e Polars são motores de processamento de dados
Bronze
customer
sale
product
sale_item
Camada
customer.csv
sale.json
cliente.xlsx
produto_01.png
reuniao.mp4
dialogo.aac
Landing
📍Processamento dos dados
Bronze
📍Armazena dados limpos e padronizados em formato tabular
Bronze
Silver
customer
sale
product
sale_item
Camada
Landing
📍Enriquece, limpa e padroniza os dados da camada Bronze
📍Processamento dos dados
Gold
customer
sale
product
Bronze
Camada
Landing
Silver
📍Processamento dos dados
📍Reúne dados prontos para análise e tomada de decisão
Datalake
Fontes
Consumo
Gold
Bronze
Camada
Landing
Silver
Ingestion
Tools
Acesso aos dados para análises
Consumo
Gold
Bronze
Camada
Landing
Silver
Consumo
📍Para consumo dos dados nas camadas é necessário um motor de consulta capaz de realizar a leitura nas camadas do datalake
📍Trino é um motor de consulta distribuído que permite acessar e analisar dados de múltiplas fontes (como bancos, data lakes e data warehouses) usando SQL de forma rápida e unificada, sem precisar mover os dados.
Consumo
📍Com o catálogo de dados, e através de ferramentas de análise, BI, machine learning e aplicações, é possível gerar insights, relatórios e decisões estratégicas a partir dos dados centralizados.
Gold
Bronze
Camada
Landing
Silver
Datalake
Fontes
Consumo
Gold
Bronze
Camada
Landing
Silver
Ingestion
Tools
Fase 2 - Potencializando o Datalake
📍Além do uso de ferramentas como Power BI o Datalake por oferecer mais possibilidades através do uso de IA Generativa e Query Editores para utilização em aprendizado de máquina.
Datalake
Fontes
Consumo
Gold
Bronze
Camada
Landing
Silver
Ingestion
Tools