Qual a diferença entre data lake e data warehouse?

Qual a diferença entre data lake e data warehouse?

Porém, como qualquer problema ou desafio, há diversas formas e estruturas que podem ser utilizadas para solução ou atingimento da estratégia de dados desejada. Neste artigo vamos explicar a diferença entre data lake e data warehouse, componentes, conceitos que são muito utilizadas pelas empresas como fundamentais para permitir a adoção de uma cultura direcionada a dados, o Data Warehouse e o Data Lake.

Antes de entender a diferença entre data lake e data warehouse

Para conseguirmos entender corretamente a diferença entre data lake e data warehouse e por que as empresas adotam uma ou outra solução, ou até ambas, precisamos primeiro entender qual sua origem e de onde estas surgiram. Começaremos pelo Data Warehouse, ou DW, por ser o mais antigo dos dois.

Trajetória Data Warehouse

No início da década de 1970 quando houve uma revolução de acessos e usos para bancos de dados relacionais, as áreas de tecnologia se depararam com um problema complexo na época: sistemas transacionais e modelados para tanto não estão mais sendo suficientes e performáticos para análises e relatórios complexas que as áreas precisam.

Sendo assim, fazia-se necessário a criação de uma forma nova de armazenamento, modelagem, processamento e disponibilização de dados que fosse capaz de suprir as diferentes necessidades analíticas que os diferentes departamentos (marketing, compras, atendimento ao cliente etc) da empresa tinham.

Segundo o glossário de termos técnicos da empresa de pesquisa Gartner, um Data Warehouse pode ser conceituado como: uma arquitetura de armazenamento designada para deter dados extraídos dos sistemas transacionais, operacionais e fontes externas.

O Data Warehouse então combina esses dados de formas sumarizadas e adequadas para consumos, análises e relatórios a nível corporativo atendendo a necessidades pré-definidas dos negócios. Porém essa conceituação moderna é a consequência, principalmente, do trabalho de Bill Inmon, conhecido como o pai de Data Warehousing e segundo a revista Computerworld uma das dez pessoas de tecnologia mais significativas dos últimos 40 anos.

Nas décadas de 70 e 80, Bill Inmon dedicou seu trabalho a estudar e criar o que seriam conhecidos como os primeiros modelos de Data Warehouse. Porém apenas em 1992 quando ele publicou o seu livro Building the Data Warehouse, que seu trabalho ganhou notoriedade mundial.

Em sua abordagem, o design de criação da arquitetura de dados focada no Warehouse é de que haja um forte trabalho de preparação, modelagem e governança de dados para gerar o armazenamento do DW, e uma vez isso estruturado, visões especializadas para cada necessidade (data marts) serão gerados (essa abordagem é conhecida hoje como top-down).

As aplicações e casos no modelo Inmon passaram a crescer, e como qualquer modelo, framework, no mundo de tecnologia, pessoas e empresas começaram a encontrar problemas e dificuldades no modelo teórico proposto pelo autor. Nessa mudança dos tempos entra o “segundo pai do Data Warehousing”, Ralph Kimball.

Ralph Kimball ganhou sua notoriedade por sugerir uma abordagem mais prática em seu livro The Data Warehouse Toolkit publicado em 1996. Nessa publicação, ao contrário da abordagem top-down de Inmon, o autor introduz que o DW na verdade pode ser criado a partir da coleção de Data Marts e uma camada que distribui informação para eles (conhecido como Information Bus ou Information Hub) em uma abordagem “bottom-up”.

De maneira geral, criar um DW é uma jornada complicada, custosa e que requer o alinhamento de diversas áreas. No tocante às abordagens, ambas são padrões para DWs e a preferência por uma ou outra dependerá de questões como: orçamento, conhecimento interno, tempo de desenvolvimento e diversos outros fatores que a estratégia de dados da sua empresa poderá absorver ou não.

A evolução para o Data Lake

Esses modelos de arquitetura sustentaram empresas por anos e foram utilizados em todo o globo. Porém o mundo de dados e analytics evoluiu para ser algo mais dinâmico, flexível, volumoso, veloz, variável, o prelúdio do que conhecemos hoje como Big Data.

Em uma situação de negócios que requer constantes mudanças e evoluções, as abordagens de Kimball e Inmon são complicadas e pouco flexíveis pois precisam promover os dados desde os sistemas transacionais até o DW através de extrações, transformações e cargas que uma vez concluídas, já previsão evoluir novamente.

Essas necessidades aliadas a novas formas de análises (dados não estruturados, por exemplo), maiores capacidades de armazenamento de baixo custo e maior sinergia entre as áreas de tecnologia e negócios, forçaram a criação de um conceito de Data Lake, explicado pela Gartner como: um conceito que consiste na coleção de vários tipos de dados, em seu formato bruto, ou mais bruto possível, sendo cópias diretas de suas origens.

Nessa conceituação um Data Lake atacava o coração de várias problemáticas dos DWs por garantir maior flexibilidade, velocidade de projetos, facilidades de acessos entre outros. Atualmente esse componente é adotado como um dos padrões das arquiteturas de dados justamente por viabilizar mais facilmente a adoção de culturas de dados, big data e analytics escaláveis a níveis corporativos.

Diferença entre data lake e data warehouse – Qual escolher?

A resposta para essa pergunta não é simples e todas as vezes será acompanhada de um “depende”. Apesar disto há algumas questões que dividem claramente o caminho a seguir:

1) Já tenho um DW. Devo jogá-lo fora e criar um Data Lake?

De maneira alguma. Os esforços empregados na criação do DW não devem ser descartados, mas sim evoluídos. DWs e Data Lakes convivem muito bem juntos, pois possuem funções complementares e agregam as áreas simultaneamente. Com o advento de tecnologias de Cloud Computing, as opções de arquiteturas têm se tornado muito flexíveis e podem abarcar diversas necessidades simultaneamente.

2) Sou uma empresa nova. Crio um DW, um Data Lake ou ambos?

Recomendo a criação de um Data Lake. O custo inicial de tecnologia e mão de obra será menor, além de que este pode crescer de tamanho e capacidade de processamento conforme a sua demanda cresce junto. O DW requer que a sua empresa tenha profissionais com alto conhecimento do ciclo de vida dos dados como um todo, e isso não é algo simples para quem está começando agora.

3) Existe algum problema em comum dos DWs e Data Lakes?

Sim, e muito sério. Governança e Qualidade de Dados serão os calcanhares de Aquiles de ambos. Em um mundo big data que o volume, velocidade e variedade dos dados só aumenta, aliado a necessidades legais como LGPD e como dados de baixa qualidade afetam os serviços e produtos que o cliente final consome, não ter uma estrutura robusta de ambos os temas aniquilará qualquer empreitada mais cedo ou mais tarde.

4) Quero dar mais autonomia para as áreas de minha empresa criarem suas próprias análises ao invés de demandarem tudo para tecnologia construir. Qual devo escolher?

Novamente recomendo o Data Lake. Por possuir o dado bruto e de diversas fontes no mesmo local, há um potencial de data discovery e análise alto para quem detêm o conhecimento do negócio. O papel das áreas de tecnologia aqui será prover as soluções, integrações e conexões que facilitem essa autonomia, auto-serviço.

5) Preciso entregar visões já com dados trabalhados e que tenham alta performance de processamento e capacidade de compreensão pelos usuários de negócio. Qual escolher?

Nessa conjuntura o DW é mais indicado. O Data Lake não possui uma modelagem definida e isso complica as formas de consumo, forçando nas áreas um maior conhecimento no dia-a-dia de dados (queries, análise, acessos, processamento distribuído etc).

O DW força estruturas de dados com modelagens mais familiares e correlatas de forma a simplificar o entendimento do “leitor”, além de ser algo concentrado para uma necessidade específica (data mart).

A constante metamorfose das arquiteturas de dados

Como falado antes, há diversas formas de resolver o mesmo desafio, problemática. A beleza e as oportunidades que são geradas pelo mundo de dados são praticamente infinitas pois a todo momento novos conceitos, fundamentos e tecnologias são criados que forçam a reformulação das estratégias de negócios e consequentemente as de tecnologia.

Há 10 anos, pensar que um aparelho doméstico como uma geladeira, cafeteira ou microondas poderia possuir um dispositivo que envia dados em tempo real (internet das coisas) para o fornecedor conseguir prover um serviço melhor de manutenção, por exemplo, parecia algo insano. Estar atualizado sobre as tendências de tecnologia e como estas fazem a diferença para os negócios é a linha entre sucesso e o fracasso das empresas.

Para manter-se atualizado, e em constante metamorfose junto ao mercado, que tal se inscrever no curso de Data Analytics da Digital House? Nele você aprenderá a utilizar toda a cadeia de valor dos dados, suas tecnologias, conceitos e componentes para realizar análises robustas e perenes que criem o diferencial competitivo seu como profissional e de sua empresa no mercado, e claro, aprender na prática a diferença entre data lake e data warehouse.

As aulas são ministradas por grandes especialistas do mercado, dinâmicas e 100% ao vivo, capacitando o aluno da melhor maneira. Além disso, os alunos podem fazer o curso de Gestão de Carreira gratuitamente e participar de feiras de recrutamento exclusivas (Recruiting Day).

Garanta agora mesmo seu lugar em uma das áreas que estão em alta e prometem ao futuro! Confira também a nossa biblioteca de conteúdo e o Blog DH, com outros materiais recheados de conteúdos ricos sobre tecnologia e programação.


Leia mais no blog DH:

+ Banco de dados públicos: conheça 6 repositórios de dados disponíveis

+ O que é data warehouse e quais são suas principais características

+ O dia a dia de um analista de dados: responsabilidades, ferramentas e dúvidas

E aí, já segue a gente no Twitter? Vem pra rede, vamos conversar sobre habilidades digitais! ;)