Por que algoritmos podem ser tendenciosos? Como evitamos isso?

Algoritmos vieram para facilitar nossas vidas, fazendo trabalhos antes manuais serem passíveis de automação e processados de forma automática, rápida e em grande escala. No entanto, para treinar e produzir um algoritmo, nos baseamos em dados reais que podem ser tendenciosos, replicando a falha em larga escala, podendo trazer um resultado irreversível para a empresa.

Infelizmente não é difícil encontrar algoritmos que funcionam de forma nociva à sociedade, como vemos em vários algoritmos de recrutamento sendo tendenciosas contra determinado gênero ou raça, ou até mesmo com o mais recente escândalo do Instagram que afeta a saúde mental de adolescentes.

Agora deve vir a pergunta chave: “mas por que isso ocorre”?

Um algoritmo passa por algumas etapas durante sua produção: Treinamento do algoritmo e sua produção.

No treinamento, temos uma hipótese e queremos testar se essa hipótese é verdadeira ou falsa para depois verificar a viabilidade do nosso modelo. Para realizar essa hipótese, nós levantamos dados reais para tirar conclusões e servir como base para toda nossa hipótese e treinamento do modelo.

No entanto, se essa base inicial for enviesada, nós vamos replicar essa falha para toda análise e modelo. Por exemplo, na minha base de dados apenas pessoas com ensino superior de 20 à 30 anos e a minha finalidade com esse algoritmo é utilizá-lo para todo um grupo de diferente idade e escolaridade.

O que vai acontecer na prática é que os dados de pessoas fora do meu grupo de teste serão muito mal representados pelo modelo, sendo como se fosse um corpo estranho a ele, gerando distorções e tendendo para trazer melhores resultado para pessoas de perfis semelhantes aos que usei durante meu treino.

Outro problema que podemos ter durante a fase de treino é pegar os dados de uma determinada faixa temporal que não condiz com a realidade atual. Isso pode ocorrer como no caso de eu querer prever a venda de calçados femininos leves e pego como base apenas os meses de verão, quando tem maior demanda.

Quando chegar os meses de menor demanda para esse tipo de calçado, o algoritmo vai sempre prever mais do que deveria, não condizendo com a realidade e sendo tendencioso para sempre prever acima do esperado.

Outro grande fator de dificuldade é que os próprios dados são tendenciosos. Eles refletem a realidade da nossa sociedade, em todos seus aspectos bons e ruins. Se não tomarmos cuidados em ver que das 100 mil pessoas que vou basear meu algoritmo de recrutamento apenas 5% delas são negras, quando vier um candidato negro ele não vai ser tratado de forma correta e com equidade.

Estes são alguns exemplos durante a fase inicial de levantamento de dados, mas temos também que tomar cuidado durante o desenvolvimento do modelo. Podemos ter fortes convicções de que a realidade é uma e ficamos cego para novas possibilidade. Por exemplo, achar que determinada variável é muito importante para aquele modelo e desconsiderar outras que achamos menos importantes.

Há problemas também de interpretação entre causa e efeito durante a análise: toda vez que choveu naquele mês, eu tive 15% a mais de vendas, então associo que o evento chuva está relacionado a este aumento na demanda. No entanto, a realidade é que estava havendo um evento em local aberto naquele mês e toda vez que chovia as pessoas do local iam para o shopping e acabavam fazendo compras por ali também. Se basearmos um modelo na primeira hipótese, teremos um modelo tendencioso.

Felizmente, podemos consertar estes problemas para criar aquele algoritmo que nos eleva como sociedade e prevê aquilo que desejamos. Tendo uma base de dados imparcial, balanceando os diferentes grupos que os compõem, treinando todos de forma igualitária – com os mesmos pesos e importância – teremos um algoritmo mais generalista e preparado para lidar com uma grande diversidade de situações.

Durante o desenvolvimento, sempre ser crítico para não se deixar levar por conhecimentos prévios, pois a realidade daqueles dados e do que você acredita podem ser completamente opostas. Com uma mente curiosa e aberta, além de enriquecer seu algoritmo, o conhecimento que se adquire nesta jornada é também muito libertador.

Por último, devemos ser honestos com a verdadeira finalidade do nosso algoritmo. Não adianta colocar um algoritmo treinado com dados locais e querer aplicá-lo para uma realidade global, ele não foi desenvolvido e estruturado para esse tipo de problema. Usar um algoritmo com dados brasileiros e utilizá-lo para prever resultados na China é como você cair de paraquedas no meio da China rural, sem internet e sem saber uma palavra em chinês: a completa falta de comunicação e conexão.