Por trás de um produto de tecnologia preditiva — como o Carf Previsível e o Aprovômetro, que desenvolvemos no JOTA — , há uma extensa série de dados sendo coletados, discutidos e analisados por uma equipe multidisciplinar, dia após dia. Pouco mais de um ano depois de o JOTA ter embarcado nessa aventura de tentar prever o que vai acontecer em instituições públicas brasileiras com base em dados, a lição mais importante que nós aprendemos foi que os robôs podem até nos ajudar a chegar a dados precisos, mas sem a dimensão humana por trás de tudo o que fazemos, nada disso seria possível.
Eu sou a Brenda Farfoglia, estagiária da área de produtos responsável por padronizar, classificar e analisar manualmente dezenas de milhares de decisões do Carf e trabalho em parceria e escrevo esse texto com a Ana Beatriz Graça, cientista de dados que automatiza e otimiza a geração desses dados, e implementa modelos preditivos que retornam as probabilidades de vitória dos processos. Juntas estamos ‘ensinando’ os robôs a reconhecer padrões que apenas um olho humano é capaz de identificar.
Isso acontece porque, se não há padrões recorrentes em um documento, dificilmente uma máquina irá identificá-los sozinha. Aí é preciso entrar a figura humana para reconhecer palavras, textos, números e símbolos e os associar a determinados significados, organizar e jogar fora o que não serve, a fim de informar aos cientistas de dados sobre possíveis correções a serem implantadas nos códigos de programação.
É com este trabalho minucioso de limpeza e padronização que variáveis antes não identificáveis aparecem e uma base de dados bruta desestruturada vai ganhando forma e permitindo que os robôs atuem.
Na nossa rotina, nós acompanhamos os acórdãos do Carf, órgão administrativo onde litígios relacionados a tributos no país são decididos. Lemos todos os acórdãos publicados assim que eles são disponibilizados pela instituição e classificamos cada uma segundo vários critérios. É uma imensa planilha de dezenas de milhares de linhas e algumas dezenas de colunas. Parte das colunas os robôs já são capazes de preencher sozinhos. Outra parte, porém, ainda precisa da nossa interpretação. Tiramos as dúvidas com especialistas e fazemos uma checagem amostral para dar confiabilidade aos nossos dados.
Para além da padronização permitida pelo olhar humano, outro benefício que robôs não seriam capazes de nos dar é nossa habilidade de classificar informações tão logo elas são disponibilizadas pelo Carf. Enquanto o volume de decisões ainda não nos deixou chegar ao ponto ótimo do algoritmo, nós já somos capazes de entregar valor para os nossos assinantes analisando as informações classificadas manualmente, tirando conclusões sobre tendências das últimas decisões e enviando relatórios a respeito.
Os recursos da tecnologia preditiva permitem que, após certa quantidade de dados e informações do passado ter sido compreendida pelos robôs, a interferência humana não seja tão necessária. A partir destes dados do passado, é possível entender as características de um processo para estimar probabilidades futuras — no nosso caso, as chances de vitórias do fisco ou do contribuinte em cada processo tramitando no Carf.
O trabalho manual de limpeza e classificação de dezenas de milhares de dados pode parecer repetitivo e cansativo, mas é pedra fundamental para um trabalho de aprendizado de máquina bem-feito e confiável. Os robôs só aprendem o que ensinamos para eles e, aqui no JOTA, nos esforçamos para que eles aprendam direito.