Bayes rules, Kish tables!

sábado, 5 de outubro de 2024

Pesquisas pré-eleitorais não errarão nem acertarão os resultados das urnas

Como é de costume ao final de toda eleição, assim que o Tribunal Superior Eleitoral (TSE) divulgar os resultados do pleito eleitoral, haverá um exército de analistas destrinchando todos os números para verificar quais institutos “acertaram” os resultados e quais foram os “erros”. Mas se pesquisas são um retrato do momento, faz sentido ou, até mesmo, é adequado comparar estimativas de pesquisas pré-eleitorais com resultados da eleição?

Essa é uma pergunta importante de se considerar pois muitas pessoas avaliam as empresas de pesquisa fazendo esse tipo de comparação. Essa questão torna-se ainda mais relevante quando tivemos em 2021 uma proposta, aprovada na Câmara, mas rejeitada no Senado, exigindo que os institutos divulguem uma “taxa de acerto”, e em seguida o presidente da Câmara, Arthur Lira, sugerindo que fossem tomadas medidas legais para que se punam institutos que “errem” demasiadamente.

Para responder essa pergunta precisamos recorrer à abordagem estatística utilizada em pesquisas eleitorais, denominada “inferência para populações finitas”. Nessa abordagem, o objetivo é estimar características de uma população muito bem definida no tempo. Por exemplo, pesquisas censitárias sempre utilizam uma data de referência na definição da população. No caso do Censo 2022, que está atualmente em condução pelo IBGE, essa data é definida entre os dias 31 de julho de 2022 e 1° de agosto de 2022. No caso de levantamentos eleitorais, normalmente define-se a população como o eleitorado durante o período de coleta dos dados. Logo, toda inferência estatística em pesquisas pré-eleitorais se restringe aos eleitores nesse marco temporal muito bem estabelecido.

Se a intenção de voto de parte do eleitorado mudar depois da coleta de dados dessas pesquisas, elas não conseguirão captar essas mudanças. Mesmo com pesquisas conduzidas às vésperas da eleição, se uma proporção considerável dos eleitores mudar ou decidir seu voto entre o período do levantamento e o momento em que apertarem o botão de “confirma” na urna eletrônica, as estimativas dessas pesquisas muito provavelmente diferirão dos resultados das urnas.

Inclusive, mesmo pesquisas divulgadas na véspera da eleição, em geral, suas coletadas de dados se iniciam na sexta (ou em alguns casos até mesmo alguns dias antes) e se encerra no sábado, em geral no início na tarde para que possam ser divulgadas mais tarde no mesmo dias. Se houver algum evento, depois ou mesmo durante a coleta, que possa vir a impactar substancialmente o eleitorado, essas pesquisas dificilmente captarão esse efeito, pelo menos não de forma completa. Por exemplo, a divulgação de um laudo falso por parte do candidato Pablo Marçal que atestaria que o também candidato Guilherme Boulos teria sido internado em 2021 por conta do uso de cocaína tem o potencial de impactar a decisão de voto em parte do eleitorado que provavelmente não será detectado pelas pesquisas conduzidas em São Paulo, já que elas estavam no meio de sua coleta.

Além disso, há outras questões que podem explicar uma decisão tardia do eleitor, como o voto útil. Sob essa hipótese, parte dos eleitores acaba decidindo votar em um candidato que acreditam ter mais chances de avançar para o 2° ou vencer as eleições do preterindo-o ao seu candidato de preferência. No entanto, o eleitor se utilizaria dos resultados das pesquisas para tomar essa decisão, assim alterando a composiçõ de preferência do eleitorado. Se a hipótese do voto útil ocorrer em uma determinada corrida eleitoral, como podemos esperar que as pesquisas reflitam os resultados das urnas se uma parte do eleitorado está mudando o seu voto com base nas mesmas?

Dessa forma, do ponto de vista estatístico, pesquisas pré-eleitorais não “erram”, nem “acertam” resultados de eleições, pois apesar de se tratar do mesmo eleitorado, ele se dá em momentos distintos e, portanto, tecnicamente, são populações diferentes. Ou seja, não são necessariamente equiparáveis. Comparar a intenção de voto na pesquisa e o comportamento do voto nas urnas seria como comparar bananas com maçãs, ou melhor, uma banana verde com essa mesma banana já madura. A única exceção são as pesquisas boca de urna, uma vez que elas são realizadas no próprio dia da eleição com eleitores que já foram às urnas votar.

Para que esse tipo de comparação seja tecnicamente adequada, teríamos que assumir que o eleitorado não muda substancialmente suas decisões entre a realização da pesquisa e o momento em que votam na eleição. Sob certas condições, isso pode até ser razoável para certos tipos de eleições, como presidenciais. Mas para cargos como deputado, senador e mesmo governador ou prefeito, há razões para se acreditar que não seja, pois uma parte do eleitorado acaba decidindo o voto para esses cargos apenas no dia anterior ou mesmo no próprio dia da eleição. No entanto, dificilmente conseguimos quantificar ou mesmo verificar empiricamente se essa suposição é verdadeira. Por isso, não me parece adequado avaliar os institutos, ou até mesmo puni-los, com base nesse critério de comparação entre as estimativas de suas pesquisas pré-eleitorais e os resultados das urnas, mesmo considerando-se a margem de erro amostral.

Como fazer previsões eleitorais então?

Uma forma mais adequada para se fazer previsões futuras é utilizando modelos estatísticos de predição, que fazem certas suposições sobre o comportamento do eleitorado para que, a partir de dados de pesquisas e de outras fontes, como indicadores políticos e econômicos, possam fazer projeções estatísticas dos votos de cada candidato no dia da eleição. Entretanto, nenhum dos institutos de pesquisa no Brasil atualmente faz uso de tais modelos preditivos na publicação dos resultados de suas pesquisas. Por outro lado, alguns agregadores de pesquisas utilizam uma série de levantamentos eleitorais junto a dados populacionais demográficos, e políticos e econômicos e resultados históricos para fazer previsões eleitorais com modelos estatísticos. Esse tipo de abordagem tem ganhado bastante popularidade em eleições americanas, por meio de plataformas como as do FiveThirtyEight e The Economist.

Para que servem as pesquisas pré-eleitorais, então?

Um dos papéis principais das pesquisas pré-eleitorais é apresentar as preferências e opiniões do eleitorado num determinado momento de forma clara e objetiva por meio de métodos científicos. Isso nos permite ter um compreendimento melhor e mais amplo dos eleitores, inclusive fora de nossas próprias bolhas. Além disso, por meio de sucessivas pesquisas realizadas ao longo do tempo, como é feito por diversos institutos, é possível traçar, retrospectivamente, certas tendências do eleitorado, que podem ajudar a entender como determinados eventos impactaram a opinião dos eleitores. Isso não significa que essas tendências se manterão depois do período em que a pesquisa foi feita, mesmo porque o eleitorado é dinâmico e sujeito a mudanças mediante a novos acontecimentos e informações. Mas um importante primeiro passo para compreender melhor o presente e vislumbrar o futuro é entender o passado. É para isso que servem as pesquisas pré-eleitorais.

Essa texto é uma versão atualizada do artigo originalmente publicado n'O Globo em 2022: https://oglobo.globo.com/blogs/pulso/post/2022/09/artigo-pesquisas-pre-eleitorais-nao-errarao-nem-acertarao-os-resultados-das-urnas.ghtml

terça-feira, 5 de outubro de 2010

A incoerência das margens de erro nas pesquisas eleitorais brasileiras

Aproveitando todo o bafafá que as diferenças entre as pesquisas e o pleito eleitoral estão dando, vou pegar a onda e falar sobre um tema correlato. Não, eu não vou acusar ou justificar porque tais desvios ocorreram, pelo menos não diretamente. Muito menos irei colocar a credibilidade dos institutos em jogo com acusações de que eles beneficiam candidato A ou candidato B. As ideias aqui são puramente técnicas. O que eu quero é abrir uma discussão sobre algo que vem me incomodando já há alguns anos...

Desde as eleições de 2004, depois de ter aprendido alguma coisa de estatística básica na graduação, eu ficava intrigado com certas incoerências que via na divulgação das margens de erros das pesquisas eleitorais no Brasil. Nas eleições de 2006, minhas suspeitas aumentavam ainda mais. Já em 2008, depois de passar o verão (ou inverno no Brasil) estudando a teoria e prática de amostragem no Sampling Program for Survey Statisticians do SRC/ISR na Universidade de Michigan, estava quase certo que havia algo de errado nessas inconsistências, mas na época, não fiz mais nada além de comentar com alguns colegas sobre o assunto. Agora, estudando integralmente as metodologias que são utilizadas (ou pelo menos deveriam ser) nesses tipos de levantamento, observo novamente, no primeiro turno das eleições de 2010, tais incoerências. Dessa vez, resolvi pelo menos tornar público minhas impressões sobre isso e gostaria de deixar em aberto uma discussão sobre o tema.

Primeiramente, deixe-me apenas adiantar que o que irei discutir aqui não é a metodologia utilizada nesses levantamentos, muito menos a validade de tais margens de erros para o tipo de método de seleção amostral empregado nos mesmos. Essa é uma discussão (ainda mais) polêmica que pretendo fazer aqui ou em algum outro espaço, mas com um pouco mais de tempo e amadurecimento das ideias. A discussão aqui é bem mais simples e requer apenas um conhecimento básico de estatistíca, ou nem isso.

O problema

No Brasil, segundo a Resolução-TSE nº23.190 toda pesquisa eleitoral divulgada a partir de 1º de janeiro antes das eleições deve ser registrada no Tribunal Eleitoral e sua divulgação conter algumas informações a respeito da mesma. Na Seção III da Resolução, entre as informações que devem ser publicadas juntamente com a pesquisa estão a margem de erro e o número de entrevistas, ou seja, o tamanho da amostra. Além disso, na Seção I consta que no registro da pesquisa deve constar o "intervalo de confiança e margem de erro". Por intervalo de confiança, eu entendo que seja na realidade o coeficiente de confiança utilizado para o cálculo das margens de erro, e acho que muitos compartilham dessa interpretação (mais adiante uma breve explicação do que é coeficiente de confiança). É interessante notar que apesar da resolução não exigir que o coeficiente de confiança seja divulgado nas publicações, a maioria dos institutos o fazem.

Como disse, de alguns anos para cá, venho notando uma certa incoerência nas margens de erro das pesquisas eleitorais brasileiras apresentadas pelos institutos. Tal incoerência que eu me refiro na realidade é uma incoerência interna, ou seja, entre as margens de erro de diferentes pesquisas divulgadas por um mesmo instituto. Vou ilustrar essa situação com um exemplo que seguirei daqui em diante, mas que vale para a maioria (se não todas) as demais pesquisas divulgadas por outros institutos. Além disso, estou utilizando esse caso como exemplo, pois é o único que tenho um material (que mostrarei na sequência) de como eles calculam as margens de erros de suas pesquisas. Enfim, sem mais delongas, o exemplo a seguir é referente as pesquisas eleitorais para presidente divulgadas pelo IBOPE (Instituto Brasileiro de Opinião Pública e Estatística). Foram vários os levantamentos divulgados pelo instituto para o cargo de presidência ao longo desse ano. No entanto, vou me concentrar em dois que mostram exatamente o que acontece.

No dia 29 de setembro de 2010 (4 dias antes da eleição), o IBOPE divilgou uma pesquisa eleitoral para a presidência com as seguintes informações (Você pode encontrar essas informações no site do próprio instituto ou na consulta de pesquisas do TSE, aqui sob o protocolo 33252/2010):

Tamanho da amostra: 3.010
Margem de erro: 2%
Coeficiente de confiança: 95%

Já no dia 03 de outubro de 2010 (dia da eleição), o mesmo instituto divulgou a pesquisa de boca de urna para a presidência com as seguintes informações (Você pode encontrar essas informações no site do próprio instituto, aqui, ou na consulta de pesquisas do TSE, aqui sob o protocolo 33805/2010):

Tamanho da amostra: 69.300
Margem de erro: 2%
Coeficiente de confiança: 99%

Rapidamente, você reparará que a margem de erro continua a mesma nas duas pesquisas, apesar do tamanho da amostra da segunda ser mais de 23 vezes o da primeira. Talvez você pensará então que a mudança no coeficiente de confiança de 95% para 99% pode ser a justificativa para isso. Aliás, é bom notar que até a pesquisa de boca de urna, todos os levantamentos do IBOPE eram divulgados com um coeficiente de confiança de 95%, porque a repentina mudança? Mais para frente no post eu escrevo sobre isso. Bom, a seguir, eu vou mostrar que talvez não seja bem assim, mas antes é preciso entender como o IBOPE está calculando essas margens de erro.

O cálculo das margens de erro

Como eu disse, nesse post eu não vou tratar sobre a validade do cálculo das margens de erro para amostras coletadas com a metodologia que a maioria (se não todos) os institutos de pesquisa privados brasileiros utilizam. Esse é um tema (muita mais) polêmico e complexo, que eu prefiro deixar para um outro instante em que eu possa me dedicar melhor a isso. Por ora, vou simplesmente admitir a forma como tais erros são calculados.

Pois bem, como eu disse, um dos motivos pelos quais escolhi esse instituto como exemplo é porque é o único que eu tenho um material que mostra como eles calculam as margens de erros de suas pesquisas. Muito provavelmente (quase certamente, eu diria) os demais institutos calculam exatamente da mesma forma. Se você for no site do IBOPE verá que eles até possuem um pequeno guia de leitura para pesquisas eleitorais, em que eles falam sobre as margens de erro das pesquisas. Veja aqui. No entanto, você logo verá que ele não é muito elucidativo sobre como exatamente eles são calculados.

No entanto, no dia 26 de agosto de 2006, o CONRE-3 (Conselho Regional de Estatística da 3ª Região - SP-PR-MT-MS) organizou o debate "A Estatística na Pesquisa Eleitoral". Uma das apresentações foi de Márcia Cavallari, então diretora do IBOPE Opinião e Diretora de Pesquisa Eleitoral da ABEP - Associação Brasileira das Empresas de Pesquisa (atual diretora do IBOPE Inteligência), que apresentou, entre diversas questões relacionadas a prática da estatística nas pesquisas eletorais, o cálculo utilizado para as margens de erros das pesquisas. Abaixo, apresento a imagem do slide dessa apresentação:

Muitos que estão lendo esse post devem estar familiarizados com a fórmula e provavelmente estão se perguntando porque eu estou me dando todo esse trabalho de procurar a fórmula que eles estão utilizando para calcular a margem de erro das pesquisas, já que essa é "fórmula padrão" de se calcular. A minha resposta é que existem diversas formas, algumas mais adequadas inclusive dependendo do plano amostral utilizado, para se calcular tais margens de erros. Eu apenas quero me certificar de qual está sendo realmente utilizada.

Para aqueles que não estão tão familiarizados com estatística, deixe-me explicar brevemente o que essa fórmula está dizendo. A margem de erro está sendo denotado por d0. Logo, ele é igual a raiz quadrada dessa expressão pq/n multiplicado por esse coeficiente z0. Como consta no slide, p é a proporção encontrada, que no caso das pesquisas eleitorais seria a proporção de pessoas que votam em um determinado candidato. Por outra lado, q = 1 - p, ou seja, é a proporção de pessoas que não votam nesse mesmo candidato, seja porque eleas votam em algum outro ou porque votam branco ou nulo (ou então porque não quiseram responder). Não deve haver problemas no entendimento que n é o tamanho da amostra, ou seja, a quantidade de pessoas entrevistadas. Já esse coeficiente z0 é o que talvez traga maior dificuldade no entendimento. Uma explicação bem rápida: ele está associado ao coeficiente de confiança utilizado no estudo, de forma que, quanto maior a confiança, maior esse coeficiente. Ele pode ser facilmente calculado em uma planilha Excel, por exemplo. Utilize a função INV.NORMP e coloque como parâmetro da função o seguinte valor 1-[(1-gamma)/2], em que gamma é o seu coeficiente de confiança. Por exemplo, vamos utilizar como coeficiente de confiança os 95% apresentado no slide. Vá no Excel e escreva em uma célula =INV.NORMP(1-((1-0.95)/2)). Você verá que ele devolverá o valor 1,96, como também mostrado no slide.

Outra observação importante é qual a proporção p utilizada na fórmula. Em geral, os institutos de pesquisa utilizam para calcular essa margem de erro, p = 0,5 (50%). Como muitos que estão lendo devem saber, eles fazem isso, pois é nesse valor que a função pq = p(1-p) = p-p², atinge seu valor máximo, para 0 < p < 1. Veja o gráfico abaixo da função p(1-p). Ou seja, quando p = 0,5, a margem de erro, dado um determinado tamanho de amostra e um coeficiente de confiança, assume o maior valor possível. É o que denominam método ou opção conservadora. É por isso que quando divulgam as pesquisas eleitorais é dito que "a margem de erro máxima da pesquisa é de...".

A questão

Enfim, vamos ao que me incomoda. Façamos o cálculo das margens de erro em cada uma das duas pesquisas mostradas anteriormente. Primeiramente da pesquisa divulgada no dia 29 de setembro de 2010. Lembrando que nesse caso n = 3.010 e o coeficiente de confiança é de 95%, o que implica em z0 = 1,96, nós temos:

d0 = z0 x √(pq/n) = 1.96 x √(0.5 x 0.5/3010) ≈ 0,0179 = 1,79%

que, arredondando, são os 2% divulgados pelo IBOPE. Ou seja, até aqui, sem problemas.

Agora vamos ao cálculo da margem de erro para a pesquisa de boca de urna. Nesse caso, temos n = 69.300 e a repentina mudança no coeficiente de confiança para 99%, que implica em z0 = 2,58:

d0 = z0 x √(pq/n) = 2,58 x √(0.5 x 0.5/69300) ≈ 0,0049 = 0,49%

que é bem menor que os 2% divulgados pelo instituto.

Se você acha que eu estou fazendo algum cálculo errado, tente você mesmo no Excel!

Se você ler mais cuidadosamente a descrição do estudo no site de consulta do TSE (sob o protocolo 33805/2010) verá o seguinte texto:

"A margem de erro máxima estimada para os votos válidos da pesquisa, considerando-se um intervalo de confiança de 99% e tendo como base o número de votos brancos e nulos da eleição de 2006 é de 2(dois) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra."

Então, eu fui otimista e resolvi recalcular a margem de erro considerando uma amostra com apenas os votos válidos. Em 2006, para o cargo de presidente, do total de votos, 91,58% foram válidos (2,73% foram brancos e 5,68% foram nulos) segundo o TSE. Logo, o IBOPE deve ter estimado que teria n' = 0,9158 x 69.300 ≈ 63.466 entrevistas com votos válidos. Então, recalculando a margem de erro temos:

d0 = z0 x √(pq/n') = 2,58 x √(0.5 x 0.5/63466) ≈ 0,0051 = 0,51%

Ainda bem longe dos 2% publicados.

Resolvi ir um pouco além, e pensei que, de repente, esses 99% de coeficiente de confiança não sejam exatamente 99%, mas sim um arredontamento de 99,49%, por exemplo, o que daria z0 = 2,80 e a margem de erro seria:

d0 = z0 x √(pq/n') = 2,80 x √(0.5 x 0.5/63466) ≈ 0,0056 = 0,56%

Ainda distante. Então, quem sabe os 99% de coeficiente de confiança não seriam um arredondamento para baixo de 99,9%? Por mais absurdo que isso possa ser, resolvi fazer vários cenários com diversos coeficientes de confiança e apresento na tabela abaixo (considerando n' = 63.466):

É interessante notar que só a partir de um coeficiente de confiança de 99,999999999999% (para ser mais exato, algo entre 99.9999999999958% e 99.9999999999959%) é que a margem de erro de 2% (se pensarmos em arredondar 1,54%) passa a ser a calculada pela fórmula utilizada. Aliás, um fato curioso, tanto no Excel quanto no R (software estatístico), eu não consegui calcular o valor crítico da distribuição normal quando o coeficiente de confiança é maior que 99,9999999999999% (o maior valor que aparece na tabela).

Bom, não sei o que você acha, mas me parece um tanto quanto absurdo arrendondar 99,999999999999% para 99%. Na verdade, já me parece absurdo utilizar 99,9%, quanto mais esse outro valor. Logo, acho (e espero) que não seja bem isso que o IBOPE (e outros institutos) esteja fazendo.

Agora, pare e pense. Porque você acha que repentinamente, na pesquisa de boca de urna, o IBOPE resolva mudar o coeficiente de confiança de 95%, que ele vinha utilizando em todas as pesquisas anteriores, para 99%? A resposta você pode encontrar na tabela acima. Veja que, fixado um tamanho de amostra, a margem de erro aumenta conforme você aumenta o coeficiente de confiança. Para aqueles que não estão tão familiarizados com estatística, a ideia é que para comportar um grau de confiança tão grande para uma estimativa intervalar, o intervalo de confiança precisa ficar mais largo, ou seja, a margem de erro ficará maior. Agora, porque eles fariam isso? Bem, como vocês podem imaginar também, fixado um coeficiente de confiança, a margem de erro diminuirá conforme o tamanho da amostra aumenta. Com um número de entrevistas realizados na pesquisa de boca de urna, a tendência, utilizando a fórmula supracitada, é de ter margens de erro bem pequenas, o que não é muito bom para o instituto, pois aumentam as chances de ele errar, por mais paradoxal que isso seja, afinal, o coeficiente de confiança deveria controlar isso, não? Pois é, aqui entramos justamente naquele tema que eu não quero discutir por ora, que é a validade e justificativa de tais margens de erros. Agora perceba uma coisa interessante. Até aqui eu evitei falar o resultado da boca de urna que eles divulgaram, pois estou quase certo que diversos outros blogs e meios de comunicação estão discutindo isso. Veja que Dilma estava com 51% dos votos válidos. Claro que precisaríamos ter esse número com pelo menos duas casas decimais, mas note que se ela tivesse mais que 50,51%, o IBOPE teria que divulgar que, segundo os dados da pesquisa, com 99% de confiança, Dilma venceria ainda no 1º turno, caso utilizasse a margem de erro da forma como estava sendo calculada até as últimas pesquisas.

Eu resolvi ir ainda mais além e ver qual seria o tamanho da amostra que eles teriam de ter coletado para alcançar os 2% divulgados, supondo um coeficiente de confiança de 99% (e continuando a utilizar a fórmula de sempre). O resultado é que eles deveriam ter coletado aproximadamente n* = 4.147 entrevistas com votos válidos. Veja só:

d0 = z0 x √(pq/n*) = 2,80 x √(0.5 x 0.5/4147) ≈ 0,02 = 2%

Ou seja, pouco mais que 15 vezes menos o que foi realmente coletado.

Conclusões

Isso me faria concluir que eles estão então calculando para a pesquisa de boca de urna a margem de erro de uma forma diferente que as demais pesquisas. Eles poderiam fazer isso? Claro, afinal o plano amostral é diferente das pesquisas anteriores e, logo, o cálculo poderia considerar o efeito do planejamento de forma diferente. No entanto, aparentemente eles não estavam considerando a estrutura do plano amostral (estratificação e conglomerização) até então, porque fariam apenas na pesquisa de boca de urna? Ou seja, para mim pelo menos, existe alguma incoerência na forma como as margens de erros estão sendo calculadas entre diferentes pesquisas do instituto. E isso não foi apenas nessas eleições e nem apenas para o cargo da presidências. Vocês podem ver, por exemplo, que nas pesquisas eleitorais em 2006 ocorreu exatamente a mesma coisa. Além disso, como mencionei anteriormente, isso não se restringe apenas ao IBOPE, mas a maioria (se não todos) os demais institutos de pesquisa privados brasileiros que divulgam pesquisas eleitorais, em menor ou maior escala.

Nessa margem de erro poderia haver erros não amostrais (como não resposta, erros de mensuração ou efeitos de questionário) então? Novamente, poderia, mas nada indica que eles estavam incluindo outras fontes de variabilidade de erro nas pesquisas anteriores. Porque incluiriam justamente na boca de urna? Aliás, essa é provavelmente uma justificativa que você pode esperar ouvir: com amostras grandes como essa, o erro amostral frente ao erro não amostral é desprezível, logo, o erro apresentado não é necessariamente referente a essa fórmula, mas sim a um erro não amostral estimado. O que é preciso questionar é: porque então isso não foi considerado nas pesquisas anteriores (como aparentemente não foi mesmo)? Além disso, se é para considerar o erro não amostral, um medida melhor para isso seria o erro quadrático médio, que contempla tanto os erros variáveis de uma pesquisa (como a variabilidade amostral) quanto os vieses, que em geral é onde se concentra a maior parte dos erros não amostrais.

Não acho que isso seja uma conspiração do PT ou PSDB, ou da Globo ou da Folha/Estado de São Paulo. Não acho que isso tenha sido feito para beneficiar candidato A ou candidato B, mesmo porque isso acontece em diversos institutos para pesquisas de diversos cargos. Se me perguntarem o que eu acho que está acontecendo, eu responderia que muito provavelmente, por não calcular adequadamente o erro amostral, fazendo-se as mais diversas suposições de modelos (novamente, tópico para outro post), as margens de erro que esses institutos calculam (utilizando a fórmula citada acima) com amostras tão grandes como essas das pesquisas de boca de urna são extramemente baixas e, para não correr o risco de "errar" o resultado do pleito eleitoral, cuja verificação se dará horas após a coleta da amostra, eles optam por manter a margem de erro em um patar mínimo de segurança, nesse caso, de 2%. Ou seja, da forma como está, os institutos escolhem a dedo qual deve ser a margem de erro de suas pesquisas de forma a lhe trazer os resultados mais convenientes e seguros. Como mencionado anteriormente, imagine as consequências para esses institutos nesse 1º turno (e no 1º de 2006 também) nas conclusões dos resultados, caso a forma como as margens de erros vinham sendo calculadas fossem mantidas. No entanto, infelizmente, as consequências para a sociedade brasileira com tal prática e outros problemas metodológicos dessas pesquisas podem ser ainda piores...

Na minha opinião, os institutos de pesquisa que fazem isso deveriam explicitar e se justificar perante a sociedade e aos especialistas do assunto o que estão fazendo. Há por trás desses cálculos e fórmulas utilizados, para chegar nos números e resultados divulgados, toda uma ciência, seja ela Estatística ou "Survey Methodology". Da maneira como está, não são apenas tais institutos que saem desacreditados, mas toda ciência e os seus profissionais e pesquisadores por trás dela também. Seria interessante e importante ouvir o que os responsáveis por essas pesquisas e institutos tem a dizer a respeito disso, para que esse tipo de coisa não se repita, nem no 2º turno nem em mais nenhuma futura eleição no Brasil. Deixo o espaço aberto aqui para essa discussão.

Também gostaria de ouvir/ler as impressões de você que acabou de ler esse post! Deixe sua opinião nos comentários.

(Agradecimentos a Tiago Mendonça pela revisão do texto)

quarta-feira, 22 de setembro de 2010

Tour pelo ISR

Uma pequena tour pelo ISR (Institute for Social Research) desde sua faixada até o local onde eu fico trabalhando, no SMP (Survey Methodology Program). São 14 minutos no total.

Caso vocês queiram saber a localização geográfica do ISR, ele fica exatamente aqui (Google Maps)!

Tour ISR - Parte 1

Tour ISR - Parte 2

E para complementar, mais um vídeo, agora mostrando um segundo prédio pertencente ao ISR: Perry Building (que pode ser encontrado aqui - Google Maps!)

Perry Building

quinta-feira, 9 de setembro de 2010

If Bayes Rules... Kish Tables!

Seja bem vindo ao blog!

A motivação para eu escrever esse blog é compartilhar um pouco sobre meu aprendizado em "survey methodology" (que eu vou evitar a tradução, pois desconheço um bom termo para isso em português) e discutir ideias nessa campo e em outras áreas correlatas, como estatística. Também para expressar minha opinião sobre assunto gerais.

Ahn, e por favor, expresse você também suas opiniões nos comentários, seja a priori ou a posteriori! Eu quero muito ouvir pensamento divergentes dos meus e poder discutir sobre os assuntos levantadas por aqui. Acredito que só assim crescemos como pessoas.

Bom, é isso aí! Até breve!