Bayes rules, Kish tables!: outubro 2010

Aproveitando todo o bafafá que as diferenças entre as pesquisas e o pleito eleitoral estão dando, vou pegar a onda e falar sobre um tema correlato. Não, eu não vou acusar ou justificar porque tais desvios ocorreram, pelo menos não diretamente. Muito menos irei colocar a credibilidade dos institutos em jogo com acusações de que eles beneficiam candidato A ou candidato B. As ideias aqui são puramente técnicas. O que eu quero é abrir uma discussão sobre algo que vem me incomodando já há alguns anos...

Desde as eleições de 2004, depois de ter aprendido alguma coisa de estatística básica na graduação, eu ficava intrigado com certas incoerências que via na divulgação das margens de erros das pesquisas eleitorais no Brasil. Nas eleições de 2006, minhas suspeitas aumentavam ainda mais. Já em 2008, depois de passar o verão (ou inverno no Brasil) estudando a teoria e prática de amostragem no Sampling Program for Survey Statisticians do SRC/ISR na Universidade de Michigan, estava quase certo que havia algo de errado nessas inconsistências, mas na época, não fiz mais nada além de comentar com alguns colegas sobre o assunto. Agora, estudando integralmente as metodologias que são utilizadas (ou pelo menos deveriam ser) nesses tipos de levantamento, observo novamente, no primeiro turno das eleições de 2010, tais incoerências. Dessa vez, resolvi pelo menos tornar público minhas impressões sobre isso e gostaria de deixar em aberto uma discussão sobre o tema.

Primeiramente, deixe-me apenas adiantar que o que irei discutir aqui não é a metodologia utilizada nesses levantamentos, muito menos a validade de tais margens de erros para o tipo de método de seleção amostral empregado nos mesmos. Essa é uma discussão (ainda mais) polêmica que pretendo fazer aqui ou em algum outro espaço, mas com um pouco mais de tempo e amadurecimento das ideias. A discussão aqui é bem mais simples e requer apenas um conhecimento básico de estatistíca, ou nem isso.

O problema

No Brasil, segundo a Resolução-TSE nº23.190 toda pesquisa eleitoral divulgada a partir de 1º de janeiro antes das eleições deve ser registrada no Tribunal Eleitoral e sua divulgação conter algumas informações a respeito da mesma. Na Seção III da Resolução, entre as informações que devem ser publicadas juntamente com a pesquisa estão a margem de erro e o número de entrevistas, ou seja, o tamanho da amostra. Além disso, na Seção I consta que no registro da pesquisa deve constar o "intervalo de confiança e margem de erro". Por intervalo de confiança, eu entendo que seja na realidade o coeficiente de confiança utilizado para o cálculo das margens de erro, e acho que muitos compartilham dessa interpretação (mais adiante uma breve explicação do que é coeficiente de confiança). É interessante notar que apesar da resolução não exigir que o coeficiente de confiança seja divulgado nas publicações, a maioria dos institutos o fazem.

Como disse, de alguns anos para cá, venho notando uma certa incoerência nas margens de erro das pesquisas eleitorais brasileiras apresentadas pelos institutos. Tal incoerência que eu me refiro na realidade é uma incoerência interna, ou seja, entre as margens de erro de diferentes pesquisas divulgadas por um mesmo instituto. Vou ilustrar essa situação com um exemplo que seguirei daqui em diante, mas que vale para a maioria (se não todas) as demais pesquisas divulgadas por outros institutos. Além disso, estou utilizando esse caso como exemplo, pois é o único que tenho um material (que mostrarei na sequência) de como eles calculam as margens de erros de suas pesquisas. Enfim, sem mais delongas, o exemplo a seguir é referente as pesquisas eleitorais para presidente divulgadas pelo IBOPE (Instituto Brasileiro de Opinião Pública e Estatística). Foram vários os levantamentos divulgados pelo instituto para o cargo de presidência ao longo desse ano. No entanto, vou me concentrar em dois que mostram exatamente o que acontece.

No dia 29 de setembro de 2010 (4 dias antes da eleição), o IBOPE divilgou uma pesquisa eleitoral para a presidência com as seguintes informações (Você pode encontrar essas informações no site do próprio instituto ou na consulta de pesquisas do TSE, aqui sob o protocolo 33252/2010):

Tamanho da amostra: 3.010
Margem de erro: 2%
Coeficiente de confiança: 95%

Já no dia 03 de outubro de 2010 (dia da eleição), o mesmo instituto divulgou a pesquisa de boca de urna para a presidência com as seguintes informações (Você pode encontrar essas informações no site do próprio instituto, aqui, ou na consulta de pesquisas do TSE, aqui sob o protocolo 33805/2010):

Tamanho da amostra: 69.300
Margem de erro: 2%
Coeficiente de confiança: 99%

Rapidamente, você reparará que a margem de erro continua a mesma nas duas pesquisas, apesar do tamanho da amostra da segunda ser mais de 23 vezes o da primeira. Talvez você pensará então que a mudança no coeficiente de confiança de 95% para 99% pode ser a justificativa para isso. Aliás, é bom notar que até a pesquisa de boca de urna, todos os levantamentos do IBOPE eram divulgados com um coeficiente de confiança de 95%, porque a repentina mudança? Mais para frente no post eu escrevo sobre isso. Bom, a seguir, eu vou mostrar que talvez não seja bem assim, mas antes é preciso entender como o IBOPE está calculando essas margens de erro.

O cálculo das margens de erro

Como eu disse, nesse post eu não vou tratar sobre a validade do cálculo das margens de erro para amostras coletadas com a metodologia que a maioria (se não todos) os institutos de pesquisa privados brasileiros utilizam. Esse é um tema (muita mais) polêmico e complexo, que eu prefiro deixar para um outro instante em que eu possa me dedicar melhor a isso. Por ora, vou simplesmente admitir a forma como tais erros são calculados.

Pois bem, como eu disse, um dos motivos pelos quais escolhi esse instituto como exemplo é porque é o único que eu tenho um material que mostra como eles calculam as margens de erros de suas pesquisas. Muito provavelmente (quase certamente, eu diria) os demais institutos calculam exatamente da mesma forma. Se você for no site do IBOPE verá que eles até possuem um pequeno guia de leitura para pesquisas eleitorais, em que eles falam sobre as margens de erro das pesquisas. Veja aqui. No entanto, você logo verá que ele não é muito elucidativo sobre como exatamente eles são calculados.

No entanto, no dia 26 de agosto de 2006, o CONRE-3 (Conselho Regional de Estatística da 3ª Região - SP-PR-MT-MS) organizou o debate "A Estatística na Pesquisa Eleitoral". Uma das apresentações foi de Márcia Cavallari, então diretora do IBOPE Opinião e Diretora de Pesquisa Eleitoral da ABEP - Associação Brasileira das Empresas de Pesquisa (atual diretora do IBOPE Inteligência), que apresentou, entre diversas questões relacionadas a prática da estatística nas pesquisas eletorais, o cálculo utilizado para as margens de erros das pesquisas. Abaixo, apresento a imagem do slide dessa apresentação:

Muitos que estão lendo esse post devem estar familiarizados com a fórmula e provavelmente estão se perguntando porque eu estou me dando todo esse trabalho de procurar a fórmula que eles estão utilizando para calcular a margem de erro das pesquisas, já que essa é "fórmula padrão" de se calcular. A minha resposta é que existem diversas formas, algumas mais adequadas inclusive dependendo do plano amostral utilizado, para se calcular tais margens de erros. Eu apenas quero me certificar de qual está sendo realmente utilizada.

Para aqueles que não estão tão familiarizados com estatística, deixe-me explicar brevemente o que essa fórmula está dizendo. A margem de erro está sendo denotado por d0. Logo, ele é igual a raiz quadrada dessa expressão pq/n multiplicado por esse coeficiente z0. Como consta no slide, p é a proporção encontrada, que no caso das pesquisas eleitorais seria a proporção de pessoas que votam em um determinado candidato. Por outra lado, q = 1 - p, ou seja, é a proporção de pessoas que não votam nesse mesmo candidato, seja porque eleas votam em algum outro ou porque votam branco ou nulo (ou então porque não quiseram responder). Não deve haver problemas no entendimento que n é o tamanho da amostra, ou seja, a quantidade de pessoas entrevistadas. Já esse coeficiente z0 é o que talvez traga maior dificuldade no entendimento. Uma explicação bem rápida: ele está associado ao coeficiente de confiança utilizado no estudo, de forma que, quanto maior a confiança, maior esse coeficiente. Ele pode ser facilmente calculado em uma planilha Excel, por exemplo. Utilize a função INV.NORMP e coloque como parâmetro da função o seguinte valor 1-[(1-gamma)/2], em que gamma é o seu coeficiente de confiança. Por exemplo, vamos utilizar como coeficiente de confiança os 95% apresentado no slide. Vá no Excel e escreva em uma célula =INV.NORMP(1-((1-0.95)/2)). Você verá que ele devolverá o valor 1,96, como também mostrado no slide.

Outra observação importante é qual a proporção p utilizada na fórmula. Em geral, os institutos de pesquisa utilizam para calcular essa margem de erro, p = 0,5 (50%). Como muitos que estão lendo devem saber, eles fazem isso, pois é nesse valor que a função pq = p(1-p) = p-p², atinge seu valor máximo, para 0 < p < 1. Veja o gráfico abaixo da função p(1-p). Ou seja, quando p = 0,5, a margem de erro, dado um determinado tamanho de amostra e um coeficiente de confiança, assume o maior valor possível. É o que denominam método ou opção conservadora. É por isso que quando divulgam as pesquisas eleitorais é dito que "a margem de erro máxima da pesquisa é de...".

A questão

Enfim, vamos ao que me incomoda. Façamos o cálculo das margens de erro em cada uma das duas pesquisas mostradas anteriormente. Primeiramente da pesquisa divulgada no dia 29 de setembro de 2010. Lembrando que nesse caso n = 3.010 e o coeficiente de confiança é de 95%, o que implica em z0 = 1,96, nós temos:

d0 = z0 x √(pq/n) = 1.96 x √(0.5 x 0.5/3010) ≈ 0,0179 = 1,79%

que, arredondando, são os 2% divulgados pelo IBOPE. Ou seja, até aqui, sem problemas.

Agora vamos ao cálculo da margem de erro para a pesquisa de boca de urna. Nesse caso, temos n = 69.300 e a repentina mudança no coeficiente de confiança para 99%, que implica em z0 = 2,58:

d0 = z0 x √(pq/n) = 2,58 x √(0.5 x 0.5/69300) ≈ 0,0049 = 0,49%

que é bem menor que os 2% divulgados pelo instituto.

Se você acha que eu estou fazendo algum cálculo errado, tente você mesmo no Excel!

Se você ler mais cuidadosamente a descrição do estudo no site de consulta do TSE (sob o protocolo 33805/2010) verá o seguinte texto:

"A margem de erro máxima estimada para os votos válidos da pesquisa, considerando-se um intervalo de confiança de 99% e tendo como base o número de votos brancos e nulos da eleição de 2006 é de 2(dois) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra."

Então, eu fui otimista e resolvi recalcular a margem de erro considerando uma amostra com apenas os votos válidos. Em 2006, para o cargo de presidente, do total de votos, 91,58% foram válidos (2,73% foram brancos e 5,68% foram nulos) segundo o TSE. Logo, o IBOPE deve ter estimado que teria n' = 0,9158 x 69.300 ≈ 63.466 entrevistas com votos válidos. Então, recalculando a margem de erro temos:

d0 = z0 x √(pq/n') = 2,58 x √(0.5 x 0.5/63466) ≈ 0,0051 = 0,51%

Ainda bem longe dos 2% publicados.

Resolvi ir um pouco além, e pensei que, de repente, esses 99% de coeficiente de confiança não sejam exatamente 99%, mas sim um arredontamento de 99,49%, por exemplo, o que daria z0 = 2,80 e a margem de erro seria:

d0 = z0 x √(pq/n') = 2,80 x √(0.5 x 0.5/63466) ≈ 0,0056 = 0,56%

Ainda distante. Então, quem sabe os 99% de coeficiente de confiança não seriam um arredondamento para baixo de 99,9%? Por mais absurdo que isso possa ser, resolvi fazer vários cenários com diversos coeficientes de confiança e apresento na tabela abaixo (considerando n' = 63.466):

É interessante notar que só a partir de um coeficiente de confiança de 99,999999999999% (para ser mais exato, algo entre 99.9999999999958% e 99.9999999999959%) é que a margem de erro de 2% (se pensarmos em arredondar 1,54%) passa a ser a calculada pela fórmula utilizada. Aliás, um fato curioso, tanto no Excel quanto no R (software estatístico), eu não consegui calcular o valor crítico da distribuição normal quando o coeficiente de confiança é maior que 99,9999999999999% (o maior valor que aparece na tabela).

Bom, não sei o que você acha, mas me parece um tanto quanto absurdo arrendondar 99,999999999999% para 99%. Na verdade, já me parece absurdo utilizar 99,9%, quanto mais esse outro valor. Logo, acho (e espero) que não seja bem isso que o IBOPE (e outros institutos) esteja fazendo.

Agora, pare e pense. Porque você acha que repentinamente, na pesquisa de boca de urna, o IBOPE resolva mudar o coeficiente de confiança de 95%, que ele vinha utilizando em todas as pesquisas anteriores, para 99%? A resposta você pode encontrar na tabela acima. Veja que, fixado um tamanho de amostra, a margem de erro aumenta conforme você aumenta o coeficiente de confiança. Para aqueles que não estão tão familiarizados com estatística, a ideia é que para comportar um grau de confiança tão grande para uma estimativa intervalar, o intervalo de confiança precisa ficar mais largo, ou seja, a margem de erro ficará maior. Agora, porque eles fariam isso? Bem, como vocês podem imaginar também, fixado um coeficiente de confiança, a margem de erro diminuirá conforme o tamanho da amostra aumenta. Com um número de entrevistas realizados na pesquisa de boca de urna, a tendência, utilizando a fórmula supracitada, é de ter margens de erro bem pequenas, o que não é muito bom para o instituto, pois aumentam as chances de ele errar, por mais paradoxal que isso seja, afinal, o coeficiente de confiança deveria controlar isso, não? Pois é, aqui entramos justamente naquele tema que eu não quero discutir por ora, que é a validade e justificativa de tais margens de erros. Agora perceba uma coisa interessante. Até aqui eu evitei falar o resultado da boca de urna que eles divulgaram, pois estou quase certo que diversos outros blogs e meios de comunicação estão discutindo isso. Veja que Dilma estava com 51% dos votos válidos. Claro que precisaríamos ter esse número com pelo menos duas casas decimais, mas note que se ela tivesse mais que 50,51%, o IBOPE teria que divulgar que, segundo os dados da pesquisa, com 99% de confiança, Dilma venceria ainda no 1º turno, caso utilizasse a margem de erro da forma como estava sendo calculada até as últimas pesquisas.

Eu resolvi ir ainda mais além e ver qual seria o tamanho da amostra que eles teriam de ter coletado para alcançar os 2% divulgados, supondo um coeficiente de confiança de 99% (e continuando a utilizar a fórmula de sempre). O resultado é que eles deveriam ter coletado aproximadamente n* = 4.147 entrevistas com votos válidos. Veja só:

d0 = z0 x √(pq/n*) = 2,80 x √(0.5 x 0.5/4147) ≈ 0,02 = 2%

Ou seja, pouco mais que 15 vezes menos o que foi realmente coletado.

Conclusões

Isso me faria concluir que eles estão então calculando para a pesquisa de boca de urna a margem de erro de uma forma diferente que as demais pesquisas. Eles poderiam fazer isso? Claro, afinal o plano amostral é diferente das pesquisas anteriores e, logo, o cálculo poderia considerar o efeito do planejamento de forma diferente. No entanto, aparentemente eles não estavam considerando a estrutura do plano amostral (estratificação e conglomerização) até então, porque fariam apenas na pesquisa de boca de urna? Ou seja, para mim pelo menos, existe alguma incoerência na forma como as margens de erros estão sendo calculadas entre diferentes pesquisas do instituto. E isso não foi apenas nessas eleições e nem apenas para o cargo da presidências. Vocês podem ver, por exemplo, que nas pesquisas eleitorais em 2006 ocorreu exatamente a mesma coisa. Além disso, como mencionei anteriormente, isso não se restringe apenas ao IBOPE, mas a maioria (se não todos) os demais institutos de pesquisa privados brasileiros que divulgam pesquisas eleitorais, em menor ou maior escala.

Nessa margem de erro poderia haver erros não amostrais (como não resposta, erros de mensuração ou efeitos de questionário) então? Novamente, poderia, mas nada indica que eles estavam incluindo outras fontes de variabilidade de erro nas pesquisas anteriores. Porque incluiriam justamente na boca de urna? Aliás, essa é provavelmente uma justificativa que você pode esperar ouvir: com amostras grandes como essa, o erro amostral frente ao erro não amostral é desprezível, logo, o erro apresentado não é necessariamente referente a essa fórmula, mas sim a um erro não amostral estimado. O que é preciso questionar é: porque então isso não foi considerado nas pesquisas anteriores (como aparentemente não foi mesmo)? Além disso, se é para considerar o erro não amostral, um medida melhor para isso seria o erro quadrático médio, que contempla tanto os erros variáveis de uma pesquisa (como a variabilidade amostral) quanto os vieses, que em geral é onde se concentra a maior parte dos erros não amostrais.

Não acho que isso seja uma conspiração do PT ou PSDB, ou da Globo ou da Folha/Estado de São Paulo. Não acho que isso tenha sido feito para beneficiar candidato A ou candidato B, mesmo porque isso acontece em diversos institutos para pesquisas de diversos cargos. Se me perguntarem o que eu acho que está acontecendo, eu responderia que muito provavelmente, por não calcular adequadamente o erro amostral, fazendo-se as mais diversas suposições de modelos (novamente, tópico para outro post), as margens de erro que esses institutos calculam (utilizando a fórmula citada acima) com amostras tão grandes como essas das pesquisas de boca de urna são extramemente baixas e, para não correr o risco de "errar" o resultado do pleito eleitoral, cuja verificação se dará horas após a coleta da amostra, eles optam por manter a margem de erro em um patar mínimo de segurança, nesse caso, de 2%. Ou seja, da forma como está, os institutos escolhem a dedo qual deve ser a margem de erro de suas pesquisas de forma a lhe trazer os resultados mais convenientes e seguros. Como mencionado anteriormente, imagine as consequências para esses institutos nesse 1º turno (e no 1º de 2006 também) nas conclusões dos resultados, caso a forma como as margens de erros vinham sendo calculadas fossem mantidas. No entanto, infelizmente, as consequências para a sociedade brasileira com tal prática e outros problemas metodológicos dessas pesquisas podem ser ainda piores...

Na minha opinião, os institutos de pesquisa que fazem isso deveriam explicitar e se justificar perante a sociedade e aos especialistas do assunto o que estão fazendo. Há por trás desses cálculos e fórmulas utilizados, para chegar nos números e resultados divulgados, toda uma ciência, seja ela Estatística ou "Survey Methodology". Da maneira como está, não são apenas tais institutos que saem desacreditados, mas toda ciência e os seus profissionais e pesquisadores por trás dela também. Seria interessante e importante ouvir o que os responsáveis por essas pesquisas e institutos tem a dizer a respeito disso, para que esse tipo de coisa não se repita, nem no 2º turno nem em mais nenhuma futura eleição no Brasil. Deixo o espaço aberto aqui para essa discussão.

Também gostaria de ouvir/ler as impressões de você que acabou de ler esse post! Deixe sua opinião nos comentários.

(Agradecimentos a Tiago Mendonça pela revisão do texto)

Bayes rules, Kish tables!

terça-feira, 5 de outubro de 2010

A incoerência das margens de erro nas pesquisas eleitorais brasileiras