A relevância de uma estratégia bem definida e o efeito desses processos na esfera coorporativa.
Uma importante pergunta a ser feita dentro de empresas que veem os dados como fonte de valor para o seu negócio é: “Qual a estratégia para a obtenção e utilização dos dados?”. Muitas empresas que já avançaram em sua transformação data-driven sabem como querem utilizar os dados – dashboards, aplicações para tomada de decisão automatizada, modelos de aprendizado de máquina. Mas essa simples pergunta evidencia um ponto que muitas companhias acabam não se preocupando tanto, porém que possui impacto muito significativo: a estratégia para obtenção dos dados.
Visto que já há um consenso em relação ao grande valor que pode ser gerado pelos dados é muito simples concluir que quanto maior o volume de dados disponível, maior o valor que esses dados irão trazer. Porém, essa relação muitas vezes não se mostra verdadeira. O volume de dados é, sim, uma variável importante, principalmente quando são utilizados modelos que precisam de uma grande quantidade de entradas para realizar uma boa generalização daquele problema a ser resolvido. Todavia, é de extrema importância que os dados utilizados sejam relevantes ao problema e que os dados possuam qualidade (como já abordado em [1]).
Um outro ponto a ser ressaltado é que existe um custo para obtenção dos dados. Apesar desse custo ter reduzido nos últimos anos, o volume de dados necessários para as análises têm crescido, e para suprir os pontos citados acima, o custo é alto. Portanto, é essencial desenvolver uma estratégia de obtenção de dados que otimize a relação custo x benefício dos dados obtidos, levando em consideração também o custo para tratamento e limpeza desses dados.
A definição de uma estratégia para obtenção de dados não é simples, sendo necessário unir a visão técnica com a visão estratégica empresarial, de modo a desenvolver uma solução otimizada para a companhia como um todo. O artigo [2] propõe seis perguntas a serem usadas nessa reflexão que podem auxiliar no desenvolvimento dessa estratégia:
- Por quê?
Para qual propósito os dados serão utilizados? - Como?
Como traduzir os desafios de negócio em problemas de dados? Como coletar dados adequados? Como preparar e acessar esses dados? - Qual?
Quais dados são usados na concepção da solução? Qual formato e escopo as bases de dados precisam ter? - Quando?
Quão frequente deve ser a obtenção e atualização dos dados? - Onde?
Qual a origem dos dados? - Quem?
Quem mais possui acesso aos mesmos dados (ou dados semelhantes) além de mim?
Tendo essas questões em mente é possível criar um esboço de uma estratégia de obtenção de dados empresarial que seja adequada e que gere diferenciação do mercado. Entretanto, é importante levar em conta que essa estratégia se refere apenas à aquisição dos dados, e é de grande relevância como eles são tratados internamente. Segundo estudos de [3], em média, menos da metade dos dados estruturados de uma empresa são realmente utilizados na tomada de decisões e menos de 1% dos dados não estruturados são devidamente analisados ou usados.
Essa informação ressalta que apenas possuir os dados não é suficiente, é importante saber como e quando utilizá-los devidamente. Um dos grandes causadores dos problemas relativos ao uso inadequado dos dados é a desconexão entre as diferentes fontes de informação. A integração entre dados de diferentes origens é essencial para gerar análises generalistas, criando um embasamento mais completo, o que auxilia na assertividade dos modelos, algoritmos e análises realizadas.
A integração de dados é, tecnicamente, o processo de combinação dos dados de diferentes origens em uma visão unificada. Isso é feito extraindo-se os dados de suas fontes, fazendo o tratamento necessário e então carregando-os em uma base unificada. Esse processo é comumente conhecido como ETL (extract, transform, load – extrair, transformar, carregar). A integração de dados é essencial em empresas que valorizam seus dados como ativos, pois otimiza o valor que eles podem gerar.
A existência de um repositório unificado de todos os dados é de extrema relevância, pois passa a ser a única fonte de dados verdadeiros (o termo mais usado é “single source of truth”). Tendo todos os dados integrados em uma única base, evita-se confusões em relação à veracidade dos dados e mantém-se todos os funcionários e setores na “mesma página”. Segundo Ron Williams, em [4], “Quando existe um conjunto de números e métrica pré-acordados e apresentados de forma uniforme, a companhia pode ser treinada em como pensar sobre problemas. Isso gera contexto para a tomada de decisão”. A implementação de uma base integrada pode, com isso, gerar altos ganhos financeiros, devido à otimização das equipes, a maior clareza e compreensão dos dados e a possibilidade de análises generalistas.
Conclui-se, portanto, que para a utilização dos dados de forma bem-sucedida e otimizada financeiramente, é de suma importância planejar os processos de obtenção e integração dos dados. Uma estratégia baseada em dados deve dar um enfoque especial a esses pontos pois eles impactam diretamente todos os outros processos que usarão estes dados, sendo essencial definir estratégias para implementação e manutenção desses procedimentos.
O artigo [5] inicia uma série de postagens sobre como a Zeta pode fazer parte da implementação de uma estratégia baseada em dados.
Analista de dados na Zeta
[2] https://medium.com/appanion/strategic-data-acquisition-6aa351d91ffb
[3] https://hbr.org/2017/05/whats-your-data-strategy
[4] https://hbr.org/2013/12/you-may-not-need-big-data-after-all
[5] https://blog.zetadados.com.br/uma-estrategia-baseada-em-dados/#