Desvendando o Data Cleaning

A profissão de Cientista de Dados vem sendo uma das profissões que mais cresce e mais se tem demanda nos últimos anos segundo diversas fontes, como o LinkedIn¹. Quando iniciamos o curso ou procuramos sobre o assunto, a primeira coisa que deve aparecer é o tema Machine Learning e Inteligência Artificial.

Muitas são as possibilidades que algoritmos geram, usos para alavancar negócios, nomes complexos, diversos termos como Aprendizado de Máquina, Redes Neurais, Visão Computacional, entre outros. Nesse meio, quase não notamos a intensa, constante e pouco glamourosa arte de limpar e consertar datasets.

Em alguns lugares, vemos que as pessoas mencionam que no trabalho de um cientista, ele pode gastar de 40-80% de seu tempo limpando base de dados e o restante criando modelos e insights(a margem é grande e temos toda uma discussão de quanto tempo realmente se gasta nessa atividade, como ilustrado por Leigh Dodds²).

Para quem é da área, quando falamos sobre Data Cleaning, já deve vir a mente os datasets mais sujos, incoerentes, com diversos erros, cheio de campos vazios e outliers. Junto disto, também deve vir a lembrança todo o trabalho, os mil tratamentos e procedimentos necessários para deixar aquele dataset utilizável de um ponto de vista analítico.

Quando estudamos para a profissão de cientista de dados, somos vendidos pelos resultados alcançáveis, mas pouco se fala do trabalho necessário até chegar lá. Nos cursos, boa parte das bases já vem limpas, normalizadas e prontas para uso (alguém disse Iris Dataset do R?) para já aplicar a parte estatística e de Inteligência Artificial.

Na vida real as bases históricas de clientes, o levantamento de dados por diversas fontes (governamentais, oficiais, webscraping), raramente vêm em um formato que atenda o seu problema de negócio a ser resolvido. Quando nos deparamos com essa situação, ficamos desmotivados em perceber que a maior parte do tempo estamos consertando bases para depois elaborar nosso algoritmo em… um tempo bem menor que levamos para limpar os dados para montá-lo.

Dessa maneira fica estigmatizado o processo que provavelmente todo trabalho de dados utiliza, o processo de Data Cleaning. Fica atrelado à ele apenas a parte ruim, de consertar erros, arrumar formatos, transformar o tipo de dado, fragmentar um campo para algo mais granular, etc.

No entanto, é também nesse processo que temos uma verdadeira imersão no conteúdo da nossa base. Descobrimos quais campos parecem ter mais credibilidade e quais não parecem ser úteis na análise. É nele, onde já preparamos o terreno para conseguir o melhor resultado para nosso algoritmo, reduzimos a variância e normalizamos os dados para não gerarem outliers.

Ao invés de catalogarmos o processo de Data Cleaning como aquele trabalho desagradável, manual, de tentativa e erro, longo e repetitivo de sempre, passamos a tratá-lo como uma verdadeira análise exploratória e também de transformação. Desta maneira acredito que a desmotivação de se deparar com a realidade de tratar dados é uma importante (e talvez a mais frequente) parte da profissão. Quem sabe ela possa se tornar um pouco mais glamourosa no dia a dia?

Guilherme Bertholdo Pandur – CTO & Co-Founder na Zeta Dados.

¹https://www.businessinsider.com/most-in-demand-jobs-according-to-linkedin-report-2021-1
²https://blog.ldodds.com/2020/01/31/do-data-scientists-spend-80-of-their-time-cleaning-data-turns-out-no/