A famosa citação de Clive Humby de que “os dados são o novo petróleo” se difunde cada vez mais em diversos segmentos do mercado que vem percebendo a importância desses recursos e muitas empresas correm para também entrar neste barco da revolução informacional.
No entanto, Data Science sozinha, embora muito potente, precisa de uma estrutura e arquitetura para realizar seu verdadeiro potencial que nos é proporcionado pela forte expansão de plataformas Cloud.
Neste artigo você verá:
• O que é plataforma cloud?
• Cenário
• Viabilizando
• Com Cloud Computing
• Resumindo
Mas, o que é uma plataforma Cloud?
Popularmente usamos Cloud para tudo aquilo que não temos armazenado fisicamente em nosso poder. “Armazeno minhas fotos na Cloud” nada mais é que dizer que estas fotos estão armazenadas em algum computador em algum lugar do mundo que acesso por meio de uma plataforma, como Google Drive.
Mas, no nosso contexto, fazemos a seguinte pergunta: “certo, mas como isso impacta os negócios?”
O advento da Cloud Computing agiliza, e muito, a celeridade e disponibilidade de recursos avançados para viabilizar projetos de Data Science.
Cenário
Vamos supor que eu tenho uma rede varejista de roupas espalhadas por todo território brasileiro e possuo atualmente 50 lojas. Cada loja tem suas transações diárias que vão ser salvas em um banco de dados (que roda em um computador) e para realizar um projeto de Data Science como segmentação de clientes e análise de portifólio, precisamos puxar dados destas 50 lojas, deixá-los propícios para análise, unificá-los e ter um computador potente o suficiente para realizar todo esse trabalho analítico, pois bases de dados podem ser enormes (como Facebook que realiza um trabalho em Apache Spark com 60 TB de dados comprimidos, lembrando que um excel de mais de 500 MB de dados já fica extremamente lento de ser utilizado).
Viabilizando
Portanto, o que precisaríamos ter para viabilizar o funcionamento da minha rede varejista, considerando que os dados ficam armazenados localmente sem nenhuma replicabilidade, é:
• 50 computadores locais para armazenar os dados transacionais;
• 1 computador mais potente para fazer o armazenamento do compilado das 50 lojas
• Manutenção destes 51 computadores,
• 1 computador superpotente ou uma rede de computadores para poder trabalhar com esses dados;
• Manutenção e aprimoramentos constantes dessa rede de computadores, uma vez que a tecnologia evolui muito rápido;
• Um meio de transportar estes dados de um local para o outro, seja fisicamente ou transferindo arquivos pela internet a baixas taxas de upload e download, podendo levar muito tempo para a transferência.
Com Cloud Computing
Agora, vamos pensar como seria em um cenário com Cloud Computing. Quando trabalho com infraestrutura em Cloud, eu não tenho acesso direto a nenhum equipamento, não sei nem dizer ao certo onde ele fica, só sei a região que ele fica.
Podemos pegar um banco de dados em cloud central onde vão armazenar todos os dados transacionais, podendo aumentar a sua capacidade de leitura ou disponibilidade para serem inseridos novos dados, além de ser fácil gerir os backups desses bancos. Caso um banco seja muito pouco, alugamos outro banco em questão de minutos.
Com os dados centralizados, fica muito mais fácil o trabalho de limpar e refinar estes dados, além de que se eu usar algum serviço de Data Science, como o Databricks, dentro da própria cloud, a taxa de transferência é extremamente maior do que depender de conexões banda larga que utilizamos no dia-a-dia.
Podemos alugar este e os demais serviços e pagar conforme utilizamos, ou seja, se utilizo o serviço por 5 minutos, sou cobrado por 5 minutos, além de ter muita flexibilidade em aumentar a potência do meu computador para realizar minha análise.
Terminado o projeto, posso apenas desligar o serviço, não precisando fazer manutenção ou me preocupar que aquela máquina funcione daqui alguns meses quando vou utilizá-la novamente (se eu for utilizá-la novamente).
Resumindo
Quais são os pontos chaves que fazem Cloud Computing nos dar uma grande vantagem para projetos?
• Celeridade em transacionar dados, devido alta disponibilidade e replicabilidade;
• Acesso a recursos em questão de minutos;
• Acesso a recursos potentes, com preço cobrado por utilização e não uma venda fechada;
• Alta capacidade de customização;
• Flexibilidade em contratar e descontratar serviços.
Assim como tudo na nova era informacional, precisamos sempre estar prontos e mais rápidos, e ter recursos distribuídos pelo planeta e conseguir agrupar recursos para viabilizar projetos em questões de minutos fazem toda a diferença em ter vantagem sobre seus competidores.
Guilherme Bertholdo Pandur
CTO na Zeta