A chamada quarta revolução industrial, ou ainda Indústria 4.0, está começando a se tornar realidade em diversas empresas ao redor do mundo. Dentre as principais características desta revolução está o controle e monitoramento de um grande quantidade de dados e informações: o chamado Big Data .
Com o início desta prática, começou-se uma corrida para o desenvolvimento de algoritmos e análises estatísticas. Estudos para identificar correlações entre as diversas variáveis monitoradas e criar modelos preditivos para importantes características dos processos passaram a ser realizados de forma intensa.
Com esta grande massa de dados, muitas vezes são identificadas correlações com variáveis que os especialistas de processo sequer monitoram. Apesar de que aumentar o alcance das observações e potencialmente descobrir novas variáveis importantes no processo possa ser algo positivo, aplicar tais modelos preditivos e correlações para tomar decisões pode acabar se tornando perigoso.
Uma das principais razões é o fato de que correlação não implica causalidade. Vamos aos conceitos: em estatística, correlação se refere a medida de relação entre duas variáveis. Uma correlação positiva entre duas variáveis indica que as duas têm uma tendência similar em seus movimentos, e uma correlação negativa indica que ambas variam de forma contrárias entre si. Já o conceito de causalidade determina que a mudança em uma variável é a causa da mudança em outra variável.
Dizer que correlação não implica em causalidade quer dizer que, ainda que duas variáveis tenham correlação, isto não implica no fato de uma ser a causa da outra.
Pode ser que, de fato, a variável A seja a causa da variável B. Mas pode ser também que B seja, na verdade, a causa de A. Ou ainda que na verdade existem outros fatores que sejam a causa tanto de A e de B. Além disso, pode ser que as variáveis impactem uma a outra, e portanto A seja a causa de B e B seja a causa de A. Por fim, pode ser que a correlação entre A e B seja simplesmente uma coincidência, obra do acaso.
Existem alguns exemplos simples para estas situações.
Outra razão pela qual o uso dos dados indiscriminadamente pode levar a decisões erradas é o chamado Paradoxo de Simpson . Este paradoxo ocorre quando existe uma tendência de comportamento observada nos dados de uma variável que é revertida ao dividir dados em determinados grupos menores.
Existem diversos exemplos deste paradoxo. Um dos mais conhecidos ocorreu na Berkeley University, na California.[2] Os dados da seleção do programa de doutorado sugeriam que os homens tinham uma taxa de admissão bem maior que as mulheres. A diferença era tão grande (44% x 35%) que isto gerou até mesmo um processo contra a universidade. No entanto, ao separar os dados pelos departamento, constatou-se que na verdade ocorria o contrário. Na maioria dos departamentos, as mulheres obtiveram taxas de admissão maiores que os homens. Mais tarde, foi concluído que o que levava a confusão era que as mulheres aplicavam em maior número aos departamentos mais competitivos, o que em média diminua a taxa de admissão feminina, comparados aos homens que aplicavam em maior número aos departamentos menos competitivos.
Além destes dois pontos, é sempre preciso tomar cuidado com a maneira que os dados são obtidos. O modo pelo qual a coleta é feita, a sua frequência e a sua acurácia podem ter grande impacto nas correlações obtidas. Por exemplo, alterações de processo corretivas podem resultar em efeitos demonstrados nos dados somente após um certo período de tempo, e levar a correlações erradas.
Portanto, considerando todas razões apresentadas, podemos concluir que confiar 100% em modelos baseados puramentes em dados pode nos levar a decisões erradas e ruins. É preciso sempre ponderar os dados com a experiência das pessoas e com o conhecimento técnico e teórico existente.
Este é um dos princípios da Cassotis em seus trabalhos: utilizamos sempre o conhecimento teórico e a experiência prática de nossos consultores e de nosso clientes para direcionar os dados e as correlações empregadas em nossos modelos de otimização. Acreditamos que a análise de uma grande massa de dados pode contribuir muito para a busca de correlações entre variáveis, desde que este trabalho seja feito sob o olhar dos especialistas para validar as relações encontradas, e desta forma, potencializar as otimizações feitas, não ficando a mercê de coincidências e do acaso na tomada de decisão.
Referências:
[1] VIGEN,Tyler. Spurious Correlations.
[2] DEXTER, Shawn. How UC Berkeley Almost Got Sued For SEX Discrimination….LYING Data?
Cassiano Vinhas de Lima - Consultor na Cassotis Consulting