Popper já costumava dizer que o senso comum das coisas não significa que ele faça sentido do ponto de vista científico, uma forma acadêmica de afirmar que vox populi não é vox dei.
No mundo de dados não diferente. Muito do que as pessoas tem como percepção está muito longe de ser a realidade cotidiana. Especialmente em tempos de ferramentas sofisticadas de análise estatística ou de machine learning.
O erro mais comum com o qual me deparo é o que eu chamo de “ilusão do liquidificador”, ou seja, acreditar que basta pegar um monte de ingredientes (dados), jogar dentro do copo do liquidificador (ferramenta) e, automaticamente você terá um suco ou uma sopa saborosa e nutritiva.
Quem trabalha com dados sabe o quanto isto está longe de ser verdade e, se assim fosse não teríamos necessidade de engenheiros, cientistas e estrategistas de dados.
Uma análise do pessoal da Power of Data corrobora a minha experiência de anos trabalhando nessa área: a maior parte do tempo gasto num trabalho com dados é gasto na preparação e arrumação deles. A conclusão da PoD é algo em torno de 70% do tempo.
Mesmo quando encontramos bancos de dados bem cuidados (o que não é habitual), precisamos escolher quais serão úteis para a análise, ou seja, quais que tem algum potencial de responder a pergunta que vai resolver um problema estratégico do negócio. Isso demanda tempo, testes e muitos neurônios queimados no processo.
Se, além disso, os dados estão espalhados em bases, formatos e padrões diferentes, o trabalho não começa antes de transformá-los em dados analisáveis.
Pior, você certamente vai se deparar muitas vezes com dados bem maltratados. Campos vazios ou inconsistentes, duplicidades entre as muitas bases, listas de clientes em *.doc ou *.pdf, e os inevitáveis bancos de dados em planilhas. Nesse caso extremo, os 70% previstos vão aumentar significativamente.
Para tudo isso, com mais ou menos tempo, existe solução. O que realmente não tem jeito é trabalhar dados sem um objetivo claro, aí já caímos na ilusão da bola de cristal: “joga os dados na máquina e veja se surge alguma ideia genial”.
Isso é apenas esperar respostas para perguntas que não existem ou esperar soluções para problemas desconhecidos.
Ah, também há quem acredite que um copy-paste de uma plataforma de códigos-fonte resolve todos os problemas, mas isso já é assunto para outro momento.