Hoje temos uma grande facilidade em juntar e armazenar dados. Cada ano surgem maiores e melhores métodos de armazenamento, tanto físicos quanto em cloud. Quando equiparamos com os custos de processamento, os custos de armazenamento são significantemente menores. Inclusive, ganhamos uma quantidade generosa de espaço sem custo algum em algumas plataformas para guardar arquivos.
Com toda essa facilidade em baixar e guardar arquivos, é natural começarmos um processo de acumulação, afinal, eles podem ser úteis algum dia, não é mesmo? Então vamos criando pastas aqui, pastas ali e tudo certo. Em um data lake, a facilidade então é ainda maior, já que a capacidade de armazenamento é tanta que a princípio pensamos que jamais vamos conseguir acumular tantos arquivos a ponto de saturá-lo.
É nesse acumula aqui, acumula dali, captura de lá, captura de cá que nosso data lake dos sonhos pode virar um data swamp, lotado de arquivos sem sentido e sem nenhuma estrutura para achar o arquivo que queremos. Quando trabalhamos com esse nível de fluxo de informações, é primordial criar uma governança e catalogar nossos dados. As características de um bom data lake costumam ser: categorização e conhecimento dos metadados; governança de dados; processamento automatizado de dados; dados úteis; e uma rotina de limpeza.
Durante um projeto específico, lembramos quais são os arquivos certos, mas depois de meses sem mexer neles, fica complicado lembrar o nome do arquivo e onde ele deve ou deveria estar. É por esse caminho que os metadados nos auxiliam. Eles são tags para facilitar a busca dos arquivos que queremos.
Governança de dados é outro tema muito importante. Quem pode acessar? Quais permissões essa pessoa ou aplicativo tem? A pessoa que tem permissão tem conhecimento de como estruturar e organizar o data lake? Se não, temos um procedimento e restrições, pois cada usuário tende a organizar e colocar os arquivos da forma que entendem corretos, o que acaba gerando uma falta de padrão e organização nos nossos dados.
Processos de automação nos auxiliam (e muito!) em manusear nosso data lake. Podemos já processar os dados para um formato propício para uso ao invés de deixá-lo em seu formato original e sem utilidade. Ou mesmo separar nosso data lake em partes originais e processadas caso precisemos manter os arquivos em seu formato original. Com as automações, podemos fazer isso de forma rápida, sistemática e prática, não desperdiçando recursos humanos para fazer todo esse trâmite e limpeza.
Claro, sempre precisamos rever aquilo que guardamos. Assim como de tempos em tempos precisamos revisitar nosso guarda-roupa e fazer aquela faxina, nosso data lake deve ser tratado da mesma maneira. Certos dados podem parecer importantes e vitais de serem guardados em determinado tempo, mas depois de meses ou anos, percebemos que não são tão úteis. Ou então a defasagem é tanta que já não servem a nenhum propósito. Por isso, devemos sempre limpar nosso data lake, liberando espaço e mantendo ele organizado para novos dados.
Nós aqui na Zeta Dados tomamos muitos cuidados para manter nossos dados organizados, sistematizados e prontos para uso assim que precisamos. Afinal, para navegar nesse mundo de dados, fazer isso em meio a um pântano digital não seria uma experiência agradável, não é mesmo?
Guilherme Bertholdo
CTO & Co-Founder na Zeta Dados.