Quaest Opinião

Pesquisa

O futuro das pesquisas de opinião

Com a crise do coronavírus, melhorar a aplicação de questionários por telefone e internet será caminho incontornável

pesquisas de opinião
Crédito: NASA

Quem acompanha pesquisas de opinião provavelmente notou que alguns institutos divulgaram resultados bastante divergentes na última semana.

Na sequência da demissão de Sergio Moro do governo e de suas acusações de que o Presidente tentou intervir na Polícia Federal, o Datafolha entrevistou, por telefone, 1503 pessoas com aparelhos celulares no dia 27 de abril para saber, entre outras coisas, suas avaliações a respeito do governo de Jair Bolsonaro. De acordo com os resultados do instituto, 33% da população o considera ótimo ou bom, 26% o avalia como regular e 38% o considera ruim ou péssimo. Praticamente não houve queda de aprovação entre a pesquisa anterior, realizada em dezembro de 2019, e esta.

Em outra pesquisa, realizada pela Quaest Consultoria e Pesquisa e contratada pelo JOTA, mostramos outro quadro. Com entrevistas por painel digital realizadas entre os dias 25 e 26, 1000 pessoas foram perguntadas sobre suas opiniões a respeito do governo Bolsonaro. Diferentemente do Datafolha, entretanto, nossos resultados revelam que 20% dos brasileiros aprovam Bolsonaro, considerando seu governo ótimo ou bom, contra 48% que o reprovam e 30% que o consideram um Presidente regular. A queda na avaliação positiva é de nada menos que 10 pontos percentuais em relação à pesquisa realizada no começo de março, antes do início da epidemia no país.

As diferenças não param por aí. Para o Datafolha, apenas 45% da população apoiaria um eventual impeachment do Presidente, número menor do que os 48% que dizem se opor à ideia (6% não sabem opinar ou não responderam). Na pesquisa JOTA/Quaest, esse resultado é inverso, com 48% dos respondentes se dizendo a favor do impeachment, contra 40% que não o apoiam.

Estamos falando, portanto, de diferenças substantivas entre institutos, sobretudo pelas conclusões que elas apontam. De acordo com o Datafolha, a demissão de Moro e o aprofundamento da crise do coronavírus não parecem ter afetado a aprovação de Bolsonaro. Segundo a nossa pesquisa, ao contrário, estes eventos foram seguidos de brusca queda na taxa de aprovação do Presidente.

Mas não fomos os únicos a detectar um cenário pior para Bolsonaro, após a saída de Sérgio Moro. Conduzida entre 24 e 26 de abril por meio digital com 2000 respondentes, outra pesquisa, esta realizada pelo Instituto Atlas, também apontou que o governo Bolsonaro é considerado ótimo ou bom por apenas 21% da população; é visto como regular por 28%; e reprovado por 49%. Quanto a um possível impeachment, o Atlas também vê uma maioria a favor, de 54%.

Afinal, por que esses números sobre o apoio ao Presidente e ao seu impeachment diferem tanto entre institutos de pesquisa?

Antes de mais nada, é preciso reconhecer que pesquisas diferentes dificilmente apresentam resultados rigorosamente semelhantes. Sem podermos entrevistar milhões de brasileiros, analisar amostras de entrevistados é algo sujeito a incerteza — e é por isso que institutos têm cautela ao reportar seus resultados, enfatizando níveis de confiança e margens de erro. A capacidade das pesquisas de estimar quem ganha ou quem perde uma eleição, por exemplo, já está estimada na margem de erro prevista na metodologia proposta. Ou seja, a incapacidade de estimar corretamente um resultado faz parte das informações disponibilizadas pelos Institutos a partir do pressuposto de que os erros são aleatoriamente distribuídos.

Diferenças entre pesquisas também podem resultar de outros detalhes metodológicos. Os enunciados das questões realizadas e a ordem em que são apresentadas; o tamanho das amostras; a data de realização das pesquisas e a extensão dos períodos de coleta de dados; quais outras perguntas estão incluídas na pesquisa; a maneira como o entrevistador se apresenta e fala sobre os objetivos da pesquisa; a duração das entrevistas, enfim, são alguns dos fatores que podem causar diferenças entre institutos. Para piorar, opiniões e atitudes podem mudar em questão de horas ou dias, gerando diferenças entre pesquisas aplicadas em diferentes momentos.

Dito isso, quando diferenças são muito grandes entre pesquisas, uma luz amarela sempre é acesa. E, pela gravidade da conjuntura atual, acreditamos que a luz da vez demanda uma discussão que ainda não ganhou o espaço devido no debate público: o jeito como fazemos pesquisa mudou, e continuará a mudar, daqui para frente, e precisamos discutir publicamente como lidamos com essas mudanças.

O fato é que a crise do coronavírus afetou a forma com que diversos institutos conduzem suas pesquisas. Por razões de segurança, entrevistas face a face, o meio tradicional canônico e com amplo conhecimento acumulado de coleta de dados e que é utilizado pelos institutos brasileiros, não estão sendo (ou não deveriam ser) realizadas. Quais são as alternativas? Principalmente pesquisas telefônicas, como as realizadas recentemente pelo Datafolha, e as digitais, como as feitas pela Quaest e pelo instituto Atlas.

Entrevistar pessoas por telefone e, mais recentemente, pela internet já é a prática corrente em mercados maiores, como Europa e Estados Unidos. A grande questão é que pesquisas desse tipo sofrem especialmente com duas limitações que precisam ser contornadas por qualquer instituto: a primeira é a de que a opinião de pessoas que não têm telefone e/ou internet não terão a chance de ser ouvida; já a segunda é a de sub-representação de grupos que, por qualquer razão, tenham maior propensão a recusar responder pesquisas não-presenciais. Quando não são contornados, esses problemas produzem amostras não representativas da população.

Um exemplo: se pessoas de classe média alta ou renda muito alta são menos propensas a atenderem seus telefones, acabarão sub-representadas em amostras de pesquisas telefônicas. Se pessoas de baixa renda, por exemplo, não têm acesso a telefonia celular na mesma proporção que outros segmentos sociais e a coleta só utiliza esse tipo de referência para discagem, então esse grupo tende a estar proporcionalmente menos representado do que deveria nessa pesquisa. De modo geral, há abundante evidência de que certos grupos são mais propensos a não responder telefonemas — e, mais, de que quem acaba sobre-representado são pessoas mais engajadas politicamente, que fazem questão de manifestarem suas opiniões.

Outro problema sério e que precisa ser levado em consideração nas pesquisas telefônicas diz respeito à qualidade da lista de telefones e às taxas de resposta da pesquisa. Para que uma amostra seja representativa de uma população, ela deveria dar chances iguais para que todos os seus membros sejam sorteados a participar do estudo. Listas compostas por números aleatórios criados por algoritmos probabilísticos são a melhor opção. Mas mesmo quando essa regra é observada, as pesquisas por telefone podem gerar vieses porque é crescente o número de pessoas que não atende telefone para participar de pesquisas. Nos Estados Unidos, as taxas de resposta já são da ordem de 6 telefonemas a cada 100 tentados; no Brasil, informações do IBGE indicam que a taxa de recusa foi de 30% no começo da pandemia, mas já estaria em 65% segundo um relatório recente da instituição.

Na verdade, qualquer fator que possa afetar a probabilidade de alguém atender o telefone e responder um questionário até o fim pode causar erros amostrais — e o mesmo vale para pesquisas pela internet.

Segundo um artigo publicado pelo instituto Atlas no El Pais, o Datafolha pode ter incorrido exatamente neste tipo de problema. Quando perguntados sobre o voto no segundo turno de 2018 em uma pesquisa divulgada em 3 de abril, 63% dos entrevistados pelo Datafolha disseram ter votado em Bolsonaro, diferença muito maior do que a encontrada no resultado oficial do pleito, quando Bolsonaro teve, na verdade, 55% dos votos válidos. A suposição da Atlas é que se há mais pessoas que votaram em Bolsonaro sendo entrevistadas do que a proporção real desse segmento na população, a avaliação positiva dele tenderá a estar superestimada.

O Datafolha se defendeu afirmando que a comparação da lembrança de intenção de voto agora com a da eleição não faz sentido. Primeiro, porque a taxa de entrevistados que se recusaram a revelar em quem votaram foi alta (8%). Segundo, porque a variável carrega um potencial viés por contemplar eleitores que hoje têm 16 ou 17 anos e que na época não podiam votar.

Esquecimento do voto e vergonha de admiti-lo em uma pesquisa podem pesar na hora de declarar voto passado. Mesmo assim, o artigo produzido pelo instituto Atlas mostra que diferenças similares entre as pesquisas do Datafolha e os resultados do segundo turno de 2018 ocorreram em outras ocasiões — e elas parecem ter relação com opiniões e atitudes como a aprovação do governo. Quando a amostra do Datafolha subestima a proporção de pessoas que votaram em Haddad em 2018, a avaliação de Bolsonaro melhora, e vice-versa. Ou seja, parece haver um padrão de associação entre a amostra utilizada pelo Datafolha e os resultados apresentados para avaliação de governo.

Se esse for o caso, como corrigimos erros amostrais? Há várias soluções, muitas delas já testadas detidamente pela literatura acadêmica especializada, que podem ser adotadas. A grande questão desse debate é que essas soluções envolvem uma tomada de decisão que é nova para muitos institutos no país, decisões que precisam ser melhor discutidas.

Aplicar cotas para entrevistas — estipulando um número mínimo de respostas de pessoas de determinado sexo ou idade, por exemplo — é uma das formais mais comuns de mitigar erros amostrais, principalmente quando se tem amostras que não seguem o modelo probabilístico clássico. Em sua pesquisa, o Datafolha, assim como a Quaest e outros institutos que conduziram pesquisas recentemente, utilizam essa técnica. Na Quaest, as pesquisas de opinião têm desenhos amostrais que exigem que a coleta dos dados reflita as proporções populacionais para sexo, idade, escolaridade, renda e posição na PEA. Isso eleva o nível de exigência da coleta, já que restringe o entrevistador a encontrar um perfil específico demandado por nosso amostrista. De qualquer forma, tal procedimento não garante que uma pesquisa esteja livre de vieses porque a decisão de não responder uma pesquisa pode ter relação com fatores que não estão associados às cotas aplicadas.

Por essa razão, institutos também recorrem a ponderações, também conhecidas como ‘pós-estratificação’. Utilizando diferentes algoritmos, as amostras são corrigidas para fazer com que determinados grupos — idosos, pessoas de regiões menos populosas, grupos de alta renda — não fiquem sobre ou sub-representados em relação aos seus tamanhos reais na população. De qualquer forma, nem todos os institutos fazem correções da mesma forma: para além do uso de algoritmos diferentes, a escolha de quais fatores precisam ser corrigidos é fundamental. No caso do Datafolha, por exemplo, sua última pesquisa não menciona correções por renda.

Na Quaest, consideramos uma bateria de fatores demográficos que, quando têm suas distribuições muito diferentes da população brasileira, são ponderados por meio de algoritmos que iterativamente balanceiam nossas amostras. No mais das vezes, reportamos correções por localidade dos respondentes, sexo, idade, renda familiar, escolaridade, religião, além de outras informações não demográficas quando isso é importante, como histórico de comparecimento eleitoral, em linha com a prática recomendada por especialistas. Em pesquisas online, também observamos a necessidade de corrigir nossas amostras pela forma com que os respondentes usam a internet, algo que ajuda a tentar sobre-representar grupos com menor contato com o meio.

Mesmo quando bem conduzidas, ponderações não são balas de prata. Cada caso pode exigir diferentes opções de variáveis (ou de exclusão delas por conta de opções metodológicas). O viés de seletividade pode se dar em decorrência de algum fator jamais imaginado pelos pesquisadores. Além disso, aplicar pesos depende da disponibilidade de informações confiáveis sobre a população brasileira ou de determinada região.

Reconhecendo esses problemas, também tentamos avançar na Quaest com novas metodologias de pós-estratificação que se mostram eficazes em outros países. A principal delas é a pós-estratificação por meio de modelos estatísticos (modelos de regressão multinível), que têm uma série de vantagens em relação às formas tradicionais de ponderação. Ao modelar respostas individuais, empregando essa técnica conseguimos estimar de forma mais precisa respostas de grupos cruzados — mulheres nordestinas de baixa renda, ou idosos católicos com alta escolaridade –, o que, além disso, nos permite ir além nas análises.

Ainda que seja algo mais trabalhoso e nem sempre viável na ausência de bons dados administrativos sobre a população, pós-estratificar por modelos multiníveis tem um bom histórico. Um exemplo conhecido é o de um estudo, publicado em 2015, que utilizou dados de intenção de voto coletados entre usuários do vídeo game Xbox para estimar o resultado final da eleição presidencial americana de 2012 com bastante precisão.

Como dissemos, soluções metodológicas para enfrentar problemas amostrais existem aos montes. É certo dizer que a crise está fazendo com que as pessoas se acostumem com as pesquisas por telefone e pela internet. Já que há evidência suficiente de que elas podem ser tão precisas quanto as realizadas por outros meios, arriscamos dizer que elas ganharão um espaço cada vez maior no mercado. Este pode ser um passo muito importante na popularização das pesquisas de opinião, pelo custo e agilidade do processo, mas os desafios também estão postos. Sem um controle muito estrito das amostras coletadas, e sem as ponderações e correções necessárias, a oportunidade pode virar um desastre, e as chances de publicação de resultados enviesados podem aumentar.

Ante o risco de que divergências entre nossos resultados passem a causar cada vez mais perplexidade, ou o que é pior, desconfiança em relação às pesquisas de opinião, é preciso que nós, os instintos, ampliemos a discussão técnica sobre as soluções metodológicas utilizadas para correção das nossas amostras, para esclarecer o público em relação às vantagens e desvantagens das escolhas feitas por cada um de nós.