Em um contexto em que a cultura Data-Driven (ou seja, a cultura empresarial orientada por dados para tomada de decisões), vem se tornando cada vez mais relevante e difundida nas empresas, uma das grandes preocupações dos gestores é a escassez e disponibilidade dos dados para os analistas. Esses são pontos bastante relevantes pois a quantidade de dados disponíveis para análise é crucial, visto que a escassez de dados pode levar a análises enviesadas e pouco generalistas. Porém, um outro ponto que é de extrema importância, mas que nem sempre é tão enfatizado, é a qualidade dos dados sendo analisados.
A baixa qualidade dos dados impacta diretamente no resultado das análises, gerando conclusões equivocadas e enfraquecendo a tomada de decisão, além de causar problemas subsequentes como o desperdício de tempo de colaboradores, o aumento de custos e, principalmente, a redução na credibilidade dos dados. Segundo estudo da Gartner [1], a baixa qualidade dos dados é a razão principal pela qual 40% das iniciativas de negócio falham a atingir os benefícios planejados. Além disso, a qualidade dos dados pode afetar em até 20% a produtividade geral de uma equipe.
O impacto financeiro deste problema também é de grande escala. Decisões baseadas em dados de baixa qualidade podem levar a investimentos que não atingem o resultado esperado, causando enormes prejuízos. De acordo com [2], grandes organizações apresentam perda média anual de 15 milhões de dólares por problemas advindos de dados de baixa qualidade.
Mas afinal, o que é a qualidade dos dados e como ela é definida? A qualidade dos dados é uma dimensão da organização de dados empresariais que pode ser definida de diversas formas. Uma forma simplificada de entender se um conjunto de dados tem a qualidade adequada é avaliar a presença dos seguintes fatores [3]:
Existência
Os dados necessários para a análise foram coletados e estão disponíveis para a equipe que fará a análise?
Consistência
Um dado que aparece em múltiplas bases tem o mesmo significado em todas elas?
Acurácia
Os dados armazenados representam fatos ou propriedades adequadamente?
Integridade
O relacionamento entre os dados faz sentido?
Validade
Os dados armazenados são válidos?
Garantir que a totalidade dos dados satisfaça esses fatores, muitas vezes é uma tarefa hercúlea e, por isso, muitas organizações adotam a prática de acompanhar indicadores para manutenção da qualidade dos dados em níveis aceitáveis. Inúmeros fatores podem ocasionar problemas na qualidade dos dados, sendo os mais comuns bastante recorrentes para analistas de dados, como: formatação inconsistente de datas e números, caracteres e símbolos fora do usual, entradas de dado duplicadas, campos não preenchidos, conflito de idiomas e de unidades de medida.
Como citado no artigo Desvendando o Data Cleaning [4], cientistas de dados costumam passar de 40% a 80% de seu tempo de trabalho limpando e tratando bases de dados, de modo a corrigir esses erros. Segundo estudo da Harvard Business Review [5], 47% dos novos dados criados têm pelo menos um erro crítico, que causa impacto no trabalho necessário para utilizá-lo. O mesmo estudo mostrou que a variância na qualidade dos dados é alta em praticamente todos os setores, indicando que nenhuma área é imune a problemas na qualidade dos dados.
É notável que o problema da qualidade dos dados está presente em, praticamente, todas as organizações, se tornando cada vez mais evidente e impactante com o crescimento da empresa. Por isso, fica claro que existe uma grande oportunidade de melhoria que pode impactar diretamente a operação empresarial. A busca e correção das raízes que ocasionam os problemas nos dados podem prevenir futuros problemas, economizar tempo e investimento e abrir portas para novas possibilidades de análise, otimizando a tomada de decisão e trazendo retornos que superam o investimento nesta tarefa.
Guilherme Busato Vecchi
Analista de dados na Zeta
[1] https://www.data.com/export/sites/data/common/assets/pdf/DS_Gartner.pdf
[2] https://www.gartner.com/smarterwithgartner/how-to-create-a-business-case-for-data-quality-improvement/
[3] https://www.springboard.com/blog/data-analytics/data-quality/
[4] https://blog.zetadados.com.br/desvendando-o-data-cleaning-a-importante-e-pouco-valorizada-arte-de-limpar-datasets/
[5] https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards