Pular para o conteúdo principal
DSSBR 2026 está chegando — o maior summit de dados e IA do Sul do Brasil. Garanta sua vaga Saber mais
← Todos os artigos Artigos

Evolução do armazenamento e arquitetura de Big Data

Evolução do armazenamento e arquitetura de Big Data

Como saímos do “armazenar a qualquer custo” até chegar no Lakehouse (sem pular etapas)

Durante anos, muita gente conta a história do Big Data como se o mundo tivesse ido de “banco de dados tradicional” direto para “Lakehouse”. Mas não foi assim.

  • primeiro, armazenamento distribuído confiável,
  • depois, escalabilidade de código aberto, em seguida, armazenamento barato e flexível,
  • depois, transações e confiança, e, finalmente, uma única camada de armazenamento atendendo BI, streaming e ML. A evolução foi gradual — cada etapa nasceu para resolver um problema específico: escala, custo, flexibilidade, confiabilidade, governança e, por fim, a unificação de workloads (BI, streaming e ML) no mesmo dado.

A seguir, uma cronologia prática (com conceitos e exemplos reais) que explica por que chegamos onde chegamos.

1) Google File System (GFS) – O início da escala

Quando o Google começou a lidar com volumes gigantes de dados (indexação da web, logs de cliques, rastreamento de páginas “crawler”), o problema não era só “guardar muito”. Era guardar muito em hardware barato que quebrava — e continuar funcionando mesmo assim.

O que o GFS trouxe de novo

  • Armazenamento distribuído: arquivos grandes quebrados em blocos e espalhados em várias máquinas.
  • Tolerância a falhas: se um nó morre, o sistema se recupera.
  • Replicação: múltiplas cópias dos dados para alta disponibilidade.

Exemplo de uso

  • Armazenar trilhões de eventos de navegação para alimentar ranking e relevância de busca.
  • Logs de sistemas distribuídos para auditoria e melhoria contínua. ✅ Legado: o GFS estabeleceu a “ideia base” para sistemas de arquivos distribuídos modernos.

2) HDFS – O GFS vira open source e nasce o ecossistema Hadoop

O HDFS (Hadoop Distributed File System) pegou o aprendizado do GFS e o levou para o mundo open source. Ele virou o “HD gigante” de clusters Hadoop.

Por que o HDFS foi tão importante

  • Tornou o armazenamento distribuído acessível para empresas fora do Google.
  • Trabalhou muito bem com processamento batch (MapReduce e, depois, Spark).
  • Foi desenhado para arquivos grandes e leitura sequencial, o que combina com ETLs e processamento em lote.

Exemplo de uso

  • Telecom: armazenar CDRs (Call Detail Records) e gerar relatórios diários de consumo.
  • E-commerce: processar logs do site durante a madrugada para atualizar dashboards e relatórios operacionais.

Limitações que apareceram

  • Forte acoplamento com cluster (infra mais “pesada”).
  • Governança e consumo por BI ainda eram difíceis.
  • Mudanças e updates (tipo “atualizar registros”) não eram naturais. ✅ Legado: HDFS “popularizou” Big Data e virou o backbone do Hadoop.

3) Data Lake – Tudo no mesmo lugar, barato e flexível… até virar pântano

Com a popularização de storage mais barato (incluindo object storage), as empresas começaram a pensar:

“Por que não guardar tudo — estruturado, semi-estruturado e não estruturado — num repositório único?”

Nasce o Data Lake, com a promessa de custo baixo e flexibilidade.

Conceitos-chave

  • Schema-on-read: o dado é guardado “como veio” e o esquema é aplicado na leitura.
  • Suporta múltiplos formatos: CSV, JSON, Parquet, ORC, Avro…
  • Ideal para armazenar dados de diferentes sistemas sem “forçar” modelagem na ingestão.

Exemplo de uso

  • Centralizar: eventos de clickstream (JSON),
  • logs de aplicação,
  • exportações de ERP/CRM,
  • dados de IoT,
  • arquivos de parceiros (CSV/Excel).

Por que muitos Data Lakes viraram “Data Swamps”

O problema não foi guardar tudo. Foi guardar sem disciplina:

  • Sem catálogo/metadata (ninguém sabe o que existe).
  • Sem padrões de nomenclatura, particionamento e formatos.
  • Sem controle de qualidade (duplicidade, dado faltando, etc.).
  • Sem controle de acesso consistente.
  • Sem rastreabilidade/auditoria de mudanças. ✅ Legado: o Data Lake abriu o jogo para armazenar tudo e experimentar… mas expôs o preço da falta de governança.

4) Delta Lake – O Data Lake ganha “regras de banco”: transações, confiança e histórico

A evolução natural foi:

“E se eu mantiver a escalabilidade e o custo do Data Lake, mas com confiabilidade de banco de dados?”

Aí entram tecnologias como Delta Lake (e, no mercado, outras alternativas similares como Iceberg/Hudi). A ideia é transformar arquivos em uma camada confiável para analytics.

O que muda na prática

  • ACID transactions: garante consistência (não “quebra” a tabela no meio de uma escrita).
  • Schema enforcement & evolution: evita que “qualquer JSON” bagunce o dataset.
  • Time travel: voltar no tempo para auditar ou reproduzir análises.
  • Upserts/Merge: atualizar e inserir dados de forma confiável.

Exemplo de uso

  • Financeiro/ERP: corrigir registros (ex.: estorno) sem reprocessar tudo.
  • Fraude e risco: manter histórico auditável para investigações.
  • CDC (Change Data Capture): integrar mudanças de sistemas transacionais mantendo consistência.
  • Streaming + batch no mesmo dataset, com qualidade. ✅ Legado: Delta Lake “recupera a confiança” no Data Lake e habilita governança técnica real.

5) Lakehouse – Um só dado para BI + Streaming + ML (sem duplicar tudo)

A Lakehouse surge quando a pergunta vira:

“Por que eu preciso de dois mundos separados — Data Lake para ciência/engenharia e Data Warehouse para BI?”

A proposta da Lakehouse Architecture é combinar:

  • Escala e custo do Data Lake
  • Confiabilidade e desempenho do Data Warehouse
  • Unificação de workloads (BI, streaming, IA/ML) em uma única base governada

O que caracteriza uma Lakehouse “de verdade”

  • Tabelas com camada transacional (ex.: Delta) sobre storage barato.
  • Separação entre storage e compute (você escala processamento sem duplicar dados).
  • Catálogo e governança (metadados, linhagem, permissões, masking).
  • Camadas de curadoria (ex.: Bronze / Silver / Gold): Bronze: raw (como veio)
  • Silver: limpo e padronizado
  • Gold: pronto para consumo e métricas de negócio

Exemplo de uso

  • BI (Power BI/Tableau) consumindo “Gold” com métricas consistentes.
  • Streaming atualizando tabelas Silver quase em tempo real.
  • ML extraindo features no mesmo lugar (sem exportar para outro repositório).
  • Data Products por domínio (pensando em Data Mesh) usando o mesmo padrão de governança.

Resultado

  • Menos duplicação (menos cópias e pipelines “espelho”).
  • Menos retrabalho (uma definição de dado para múltiplos usos).
  • Mais rastreabilidade e confiança. ✅ Legado: o Lakehouse é a tentativa mais madura de unificar análise, operação e ciência de dados em cima de um único “source of truth” bem governado.

Conclusão: não foi “moda”, foi maturidade

A história não é “Hadoop morreu” ou “Lakehouse substituiu tudo”. É mais simples (e mais real):

  • GFS ensinou escala com falhas
  • HDFS democratizou Big Data
  • Data Lake trouxe flexibilidade e custo baixo
  • Delta Lake trouxe transações e confiança
  • Lakehouse trouxe unificação e governança para múltiplos workloads 📌 Frase para fechar o post com impacto:“O Lakehouse não substituiu o Data Lake — ele disciplinou o Data Lake.”

Pronto para impulsionar sua jornada
em Big Data e IA?

Junte-se à comunidade do GU BigData & IA. Conheça pessoas, descubra oportunidades e cresça cercado de quem move o mercado.

Tenho Interesse