Mudança real versus ruído estatístico
A cada semana novas pesquisas eleitorais são divulgadas, alimentando as mídias com reportagens e análises que descrevem a liderança de um candidato diminuindo ou crescendo de pesquisa para pesquisa. Essas variações são geralmente pequenas, dentro do intervalo da margem de erro da pesquisa, suscita mais incertezas do que certezas sobre alguma real mudança entre os eleitores. Mas como podemos distinguir a mudança real do ruído estatístico? Assim como a diferença entre os principais candidatos numa disputa eleitoral, a margem de erro para a diferença entre duas pesquisas pode ser maior do que você imagina.
Uma vez que as pesquisas ouvem apenas uma pequena amostra (mas suficiente) da população, é esperado que o apoio a um candidato medido em uma pesquisa não corresponda exatamente ao resultado “verdadeiro” que provavelmente obteríamos se entrevistarmos todos os eleitores no país.
Portanto, a margem de erro que as empresas informam descreve a quantidade de variabilidade que podemos esperar em torno do valor real de apoio de um candidato individual.
Por exemplo, no gráfico a seguir, as últimas pesquisas mostram Lula com um nível de apoio entre 41% e 45%. Por sorte, todas as pesquisas incluídas no gráfico utilizam uma margem de erro de 2 pontos percentuais para mais ou para menos no nível de confiança de 95%. Portanto, isso significa que o primeiro resultado obtido na pesquisa do Instituto FSB em junho (Lula, 43%, e Bolsonaro, 33%) está dentro do intervalo do que esperaríamos se o verdadeiro nível de apoio na população total estivesse em algum lugar dois pontos em qualquer direção – ou seja, entre 41% e 45% para Lula e 31% e 35% para Bolsonaro.
Uma margem de erro de 2 pontos percentuais para mais ou para menos no nível de confiança de 95% significa que, se repetirmos a mesma pesquisa 100 vezes, esperaríamos que em 95 vezes o resultado estivesse dentro do intervalo de 2 pontos percentuais do valor real da população. Comparando as pesquisas realizadas em junho e julho pelas empresas PoderData e FSB, os resultados medidos não são estatisticamente diferentes.
O erro da margem de erro
Não há consenso sobre se é possível calcular ou não uma margem de erro para pesquisas que não adotem estritamente o método de amostragem probabilística para selecionar os participantes. Contudo, estou aceitando a informação de face das pesquisas assim como relatada pelas empresas.
No gráfico anterior, o presidente Jair Bolsonaro passou de uma desvantagem de 10 pontos percentuais para Lula, na pesquisa realizada em junho pelo PoderData, para uma diferença de 8 pontos em julho. Uma variação líquida de –2 pontos percentuais. Mas levando em conta a variabilidade da amostragem, o intervalo da margem de erro para esse deslocamento de 2 pontos é de aproximadamente 9 pontos percentuais, como representado no gráfico a seguir. Em outras palavras, o deslocamento que observamos na liderança de Lula em relação a Bolsonaro é estatisticamente consistente com qualquer número entre 5 e 13 pontos.
Isso não quer dizer que mudanças tão grandes provavelmente tenham ocorrido (ou que nenhuma mudança tenha ocorrido), mas sim que não podemos distinguir de forma confiável a mudança real do ruído com base apenas nessas poucas pesquisas. O nível de mudança observado de uma pesquisa para outra precisaria ser bem maior para que pudéssemos dizer com confiança que uma mudança na margem da diferença entre os dois candidatos se deve a mais do que a variabilidade da amostragem.
Mesmo quando vemos grandes oscilações na intenção de votos de uma pesquisa para outra, deve-se ter cautela ao aceitá-las pelo valor de face. Desde janeiro até a eleição em outubro, a expectativa é que mais de 500 pesquisas eleitorais sobre a disputa pela sucessão presidencial sejam publicadas. Portanto, usando o limite tradicional de 95% de confiança, esperaríamos que 5% (ou cerca de 25) dessas pesquisas produzissem estimativas anormais, que diferem do valor “verdadeiro” da população por mais do que o valor da margem de erro. Algumas delas podem estar bem longe na verdade.
O maior problema é que muitas vezes são essas pesquisas atípicas que acabam recebendo muita atenção, porque sugerem alguma grande mudança em curso no status quo da disputa eleitoral. Quando confrontado com um resultado particularmente surpreendente, é sempre melhor ser paciente e ver se ele é replicado em pesquisas subsequentes. Um resultado inconsistente em relação a outras pesquisas não é necessariamente errado, mas mudanças reais no nível de apoio a um candidato também devem aparecer em outras pesquisas.
O diabo mora nos detalhes
Como alerta o famoso provérbio alemão, o diabo mora nos detalhes. O nível de precisão que pode ser esperado para comparações entre duas pesquisas dependerá também dos detalhes dessas pesquisas específicas que estão sendo comparadas. Na prática, duas pesquisas por si só serão insuficientes para medir de forma confiável um ponto de inflexão numa disputa eleitoral.
Contudo, uma série de pesquisas emparelhadas mostrando um aumento gradual na liderança de um candidato muitas vezes pode ser tomada como evidência de uma tendência real, mesmo que a diferença entre pesquisas individuais esteja dentro da margem de erro. Como regra geral, no JOTA, defendemos que observar tendências que surgem de várias sondagens diferentes pode fornecer mais confiança do que observar apenas os resultados medidos por uma ou duas empresas de pesquisa.
Como a margem de erro se aplica aos subgrupos?
Frequentemente, a margem de erro informada na pesquisa se aplica a estimativas que usam toda a amostra (ou seja, todos os eleitores ou prováveis eleitores que foram pesquisados). Mas as pesquisas às vezes também realizam alguns cruzamentos de subgrupos, como sexo, região geográfica, renda, se recebe o Auxílio Brasil etc. Como os valores estimados para os subgrupos da população têm menos casos, suas margens de erro são maiores; em alguns casos, muito maiores.
Por exemplo, considerando uma pesquisa que ouviu 2.000 eleitores e tem uma margem de erro de 2 pontos percentuais para mais ou para menos em estimativas de apoio geral para candidatos individuais. Para um subgrupo como os eleitores no Centro-Oeste, que representam cerca de 7% do eleitorado do país, o tamanho da amostra (ou cota da região) seria de cerca de 140 eleitores entrevistados na pesquisa. Isso significaria uma margem de erro de 8,5 pontos percentuais para mais ou para menos para candidatos individuais nessa região e uma margem de erro de 17 pontos percentuais para mais ou para menos na diferença entre dois candidatos.
Na prática, alguns subgrupos demográficos, como mulheres, eleitores jovens e de alta renda, são menos propensos a responder às pesquisas e precisam ser “ponderados”, o que significa que as estimativas para alguns subgrupos geralmente dependem de amostras ainda menores. É preciso que as pesquisas façam mais na fase de seleção, pois esperar até a fase de ponderação pode ser tarde demais. Algumas consultorias de opinião pública, incluindo Quaest e PoderData, relatam margens de erro para subgrupos.