EN ES PT
EN ES PT

Por que não confiar em modelos baseados 100% em dados?

01 de Outubro de 2020 Blog por Cassotis Consulting

A chamada quarta revolução industrial, ou ainda Indústria 4.0, está começando a se tornar realidade em diversas empresas ao redor do mundo. Dentre as principais características desta revolução está o controle e monitoramento de um grande quantidade de dados e informações: o chamado Big Data .

 

Com o início desta prática, começou-se uma corrida para o desenvolvimento de algoritmos e análises estatísticas. Estudos para identificar correlações entre as diversas variáveis monitoradas e criar modelos preditivos para importantes características dos processos passaram a ser realizados de forma intensa.

 

Com esta grande massa de dados, muitas vezes são identificadas correlações com variáveis que os especialistas de processo sequer monitoram. Apesar de que aumentar o alcance das observações e potencialmente descobrir novas variáveis importantes no processo possa ser algo positivo, aplicar tais modelos preditivos e correlações para tomar decisões pode acabar se tornando perigoso.

 

Uma das principais razões é o fato de que correlação não implica causalidade. Vamos aos conceitos: em estatística, correlação se refere a medida de relação entre duas variáveis. Uma correlação positiva entre duas variáveis indica que as duas têm uma tendência similar em seus movimentos, e uma correlação negativa indica que ambas variam de forma contrárias entre si. Já o conceito de causalidade determina que a mudança em uma variável é a causa da mudança em outra variável.

 

Dizer que correlação não implica em causalidade quer dizer que, ainda que duas variáveis tenham correlação, isto não implica no fato de uma ser a causa da outra.

 

Pode ser que, de fato, a variável A seja a causa da variável B. Mas pode ser também que B seja, na verdade, a causa de A. Ou ainda que na verdade existem outros fatores que sejam a causa tanto de A e de B. Além disso, pode ser que as variáveis impactem uma a outra, e portanto A seja a causa de B e B seja a causa de A. Por fim, pode ser que a correlação entre A e B seja simplesmente uma coincidência, obra do acaso.

 

Existem alguns exemplos simples para estas situações.

  1. Podemos notar uma correlação entre o cantar das galinhas (A) e o nascer do sol (B), mas não podemos pensar que A causa B, e sim o contrário.
  2. Existe uma correlação alta positiva entre o número de picolés vendidos (A) e o número de afogamentos nas praias (B). Com certeza podemos dizer que A não é causa de B, e nem B a causa de A. Mas, pela experiência, podemos constatar que existem outros fatores: o calor (C) leva muita gente às praias (D). Muita gente nas praias implica em maior consumo de picolé e ao mesmo tempo um maior número de afogamentos.
  3. Existe uma correlação entre a presença de dentes amarelos (A) e o desenvolvimento de câncer de pulmão (B). No entanto, através de estudos científicos, é possível constatar que A não causa B e vice-versa. Existe um fator (C), o vício no cigarro, que causa tanto A quanto C.
  4. Existe uma correlação negativa entre o número de piratas (A) e o aquecimento global (B). Historicamente, a medida que o número de piratas diminuiu, a temperatura na Terra foi aumentando. Claramente esta correlação é fruto de inúmeros outros fatores. Senão, bastaria incentivar que mais pessoas se tornassem piratas e o problema do aquecimento global estaria resolvido!
  5. Existe uma forte correlação entre o consumo de queijo mozarela (A) e o número de doutorandos em engenharia civil (B). Não há nenhuma evidência científica que A cause B ou vice-versa, mas sim que esta seja uma grande coincidência. Este tipo de correlação é chamada de correlação espúria. Outros exemplos incluem a correlação entre o número de filmes de Nicholas Cage e o número de afogamentos em piscina e a correlação entre a taxa de divórcio em Maine, nos EUA, e o consumo per capita de margarina. Mais correlações como essa podem ser encontradas em [1].

 

Outra razão pela qual o uso dos dados indiscriminadamente pode levar a decisões erradas é o chamado Paradoxo de Simpson . Este paradoxo ocorre quando existe uma tendência de comportamento observada nos dados de uma variável que é revertida ao dividir dados em determinados grupos menores.

 

Existem diversos exemplos deste paradoxo. Um dos mais conhecidos ocorreu na Berkeley University, na California.[2] Os dados da seleção do programa de doutorado sugeriam que os homens tinham uma taxa de admissão bem maior que as mulheres. A diferença era tão grande (44% x 35%) que isto gerou até mesmo um processo contra a universidade. No entanto, ao separar os dados pelos departamento, constatou-se que na verdade ocorria o contrário. Na maioria dos departamentos, as mulheres obtiveram taxas de admissão maiores que os homens. Mais tarde, foi concluído que o que levava a confusão era que as mulheres aplicavam em maior número aos departamentos mais competitivos, o que em média diminua a taxa de admissão feminina, comparados aos homens que aplicavam em maior número aos departamentos menos competitivos.

 

Além destes dois pontos, é sempre preciso tomar cuidado com a maneira que os dados são obtidos. O modo pelo qual a coleta é feita, a sua frequência e a sua acurácia podem ter grande impacto nas correlações obtidas. Por exemplo, alterações de processo corretivas podem resultar em efeitos demonstrados nos dados somente após um certo período de tempo, e levar a correlações erradas.

 

Portanto, considerando todas razões apresentadas, podemos concluir que confiar 100% em modelos baseados puramentes em dados pode nos levar a decisões erradas e ruins. É preciso sempre ponderar os dados com a experiência das pessoas e com o conhecimento técnico e teórico existente.

 

Este é um dos princípios da Cassotis em seus trabalhos: utilizamos sempre o conhecimento teórico e a experiência prática de nossos consultores e de nosso clientes para direcionar os dados e as correlações empregadas em nossos modelos de otimização. Acreditamos que a análise de uma grande massa de dados pode contribuir muito para a busca de correlações entre variáveis, desde que este trabalho seja feito sob o olhar dos especialistas para validar as relações encontradas, e desta forma, potencializar as otimizações feitas, não ficando a mercê de coincidências e do acaso na tomada de decisão.

 

Referências:

[1] VIGEN,Tyler. Spurious Correlations. 

[2] DEXTER, Shawn. How UC Berkeley Almost Got Sued For SEX Discrimination….LYING Data?

 

Cassiano Vinhas de Lima - Consultor na Cassotis Consulting