Imaginemos que queríamos saber a proporção das diferentes marcas de automóveis em Portugal. A forma mais precisa seria aceder à base de dados completa com a identificação dos cerca de 7 milhões de veículos no país. Esse acesso dava-nos os valores exatos sem margem de erro nem enviesamentos.
Agora imagine que o Estado português não permitia o acesso a essa base de dados, mas apenas a uma amostra aleatória de 1000 veículos. Passaríamos de uma base de dados de 7 milhões para apenas mil. Seria, ainda assim, possível ter uma boa estimativa? Na verdade, sim (algo que pode surpreender quem nunca estudou estatística). Com uma amostra aleatória de mil registos da base de dados conseguiríamos saber, com uma margem de erro máxima de cerca de 3 pontos percentuais, a % de automóveis portugueses de cada marca em Portugal. Curiosamente, esta estimativa teria praticamente a mesma margem de erro quer o parque automóvel fosse constituído por 100 mil carros ou 10 milhões (outra coisa que pode surpreender quem nunca estudou estatística). Mais do que a dimensão da população, essencial é que a amostra seja mesmo aleatória.
Agora imagine que o Estado português nem sequer aceitava fornecer os dados para mil veículos aleatórios. Neste caso teríamos de ser nós a recolher essa amostra de 1000 automóveis. Poderíamos ir para junto de uma estrada recolher as marcas dos primeiros 1000 veículos que passassem. Será que isso daria uma estimativa tão boa como obter a marca de 1000 veículos aleatórios de uma base de dados nacional? Nem de perto. Essa amostra não seria aleatória.
Dependendo da zona escolhida, poderíamos apanhar uma concentração maior de marcas mais caras ou mais baratas. Se recolhêssemos dados apenas em determinadas horas do dia ou dias da semana, captaríamos perfis diferentes de utilização. Mesmo que espalhássemos a recolha por várias zonas e vários períodos, continuaríamos a sobre-representar carros que circulam mais e subrepresentar carros que circulam menos. Ou seja, a amostra seria parcial e enviesada, e não poderíamos confiar nas margens de erro típicas de amostras verdadeiramente aleatórias.
Para evitar estes problemas, poderíamos, em vez disso, telefonar a pessoas aleatoriamente e perguntar a marca do seu veículo. Nesse caso arriscaríamos que muitas pessoas mentissem por se envergonharem de terem carros de determinadas marcas ou não quisessem responder por terem receio de passar esse tipo de informação a um estranho ao telefone. Mais uma vez, a amostra não seria aleatória e o resultado correto poderia estar bem fora da margem de erro apresentada. Em qualquer um destes casos, os enviesamentos podiam ser tão altos – e em sentidos tão diversos – que duas sondagens feitas em alturas próximas poderiam dar valores substancialmente diferentes para as mesmas marcas. Agora imaginemos que perante duas sondagens seguidas com valores distintos, um qualquer jornal publicava a seguinte manchete: “Carros da marca X caem para metade na última semana”. Qualquer jornal que fizesse tal manchete sairia desacreditado, porque é evidente que o parque automóvel não muda substancialmente de uma semana para outra, mesmo que os resultados de sondagens distintas dessem esses resultados.
O desafio de fazer sondagens eleitorais é muito semelhante. É impossível (por enquanto, embora o Elon Musk deva andar a trabalhar nisso) entrar na cabeça de todos os portugueses para retirar a informação diretamente sobre o seu sentido de voto. Qualquer método de amostragem dificilmente recolherá uma amostra verdadeiramente aleatória. Sondagens feitas na mesma altura e até com a mesma metodologia, podem dar resultados substancialmente diferentes. Pequenas variações da metodologia de recolha de dados podem levar a resultados bastante distintos. O facto de haver muitos indecisos que não podem ser distribuídos proporcionalmente ainda piora a situação.
Muitas vezes os enviesamentos são impossíveis de corrigir com estratificação porque correspondem a variações de comportamento impossíveis de identificar (por exemplo, pessoas mais zangadas com a vida podem, simultaneamente, estar menos disponíveis para responder a inquéritos telefónicos e mais disponíveis para votar em partidos de protesto, independentemente da sua idade, sexo ou escolaridade). Não precisamos de teorias de conspiração sobre intencionalidade das diferentes casas de sondagens, bastam as dificuldades metodológicas para explicar as diferenças (dito isto, a insistência numa metodologia que se prove enviesada pode revelar inabilidade, no melhor dos casos, ou intencionalidade, no pior dos casos).
Quando as diferenças entre candidatos são claras, as sondagens oferecem alguma confiança relativa – por exemplo, é seguro prever que Gouveia e Melo ficará à frente de António Filipe, mesmo com enviesamentos. Mas em corridas apertadas, com valores próximos, as sondagens tornam-se menos úteis para prever a classificação dos candidatos. Variações semanais podem gerar manchetes chamativas e dominar discussões, mas carecem de significado estatístico robusto. Sobre as sondagens diárias nem vale a pena escrever porque muitas vezes refletem mudanças dentro da margem de erro sem qualquer justificação objetiva e nenhuma ligação plausível a acontecimentos da campanha (embora um aumento repetido e sustentado ao longo de vários dias possa efetivamente ter significado real). É como lançar um dado duas vezes seguidas e passar depois horas a explicar o que é que aconteceu no mundo para terem saído valores diferentes.
Com todos estes desafios metodológicos, a pergunta certa não é porque é que as sondagens falham, mas antes como é que as sondagens, de vez em quando, acertam. Há mérito das casas de sondagens academicamente sólidas que usam técnicas avançadas para tornar as amostras mais representativas. No entanto a resposta mais honesta à pergunta de como é que as sondagens de vez em quando acertam é… por sorte, por muita sorte.