Bayes rules, Kish tables!: A incoerência das margens de erro nas pesquisas eleitorais brasileiras

terça-feira, 5 de outubro de 2010

A incoerência das margens de erro nas pesquisas eleitorais brasileiras

Aproveitando todo o bafafá que as diferenças entre as pesquisas e o pleito eleitoral estão dando, vou pegar a onda e falar sobre um tema correlato. Não, eu não vou acusar ou justificar porque tais desvios ocorreram, pelo menos não diretamente. Muito menos irei colocar a credibilidade dos institutos em jogo com acusações de que eles beneficiam candidato A ou candidato B. As ideias aqui são puramente técnicas. O que eu quero é abrir uma discussão sobre algo que vem me incomodando já há alguns anos...

Desde as eleições de 2004, depois de ter aprendido alguma coisa de estatística básica na graduação, eu ficava intrigado com certas incoerências que via na divulgação das margens de erros das pesquisas eleitorais no Brasil. Nas eleições de 2006, minhas suspeitas aumentavam ainda mais. Já em 2008, depois de passar o verão (ou inverno no Brasil) estudando a teoria e prática de amostragem no Sampling Program for Survey Statisticians do SRC/ISR na Universidade de Michigan, estava quase certo que havia algo de errado nessas inconsistências, mas na época, não fiz mais nada além de comentar com alguns colegas sobre o assunto. Agora, estudando integralmente as metodologias que são utilizadas (ou pelo menos deveriam ser) nesses tipos de levantamento, observo novamente, no primeiro turno das eleições de 2010, tais incoerências. Dessa vez, resolvi pelo menos tornar público minhas impressões sobre isso e gostaria de deixar em aberto uma discussão sobre o tema.

Primeiramente, deixe-me apenas adiantar que o que irei discutir aqui não é a metodologia utilizada nesses levantamentos, muito menos a validade de tais margens de erros para o tipo de método de seleção amostral empregado nos mesmos. Essa é uma discussão (ainda mais) polêmica que pretendo fazer aqui ou em algum outro espaço, mas com um pouco mais de tempo e amadurecimento das ideias. A discussão aqui é bem mais simples e requer apenas um conhecimento básico de estatistíca, ou nem isso.

O problema

No Brasil, segundo a Resolução-TSE nº23.190 toda pesquisa eleitoral divulgada a partir de 1º de janeiro antes das eleições deve ser registrada no Tribunal Eleitoral e sua divulgação conter algumas informações a respeito da mesma. Na Seção III da Resolução, entre as informações que devem ser publicadas juntamente com a pesquisa estão a margem de erro e o número de entrevistas, ou seja, o tamanho da amostra. Além disso, na Seção I consta que no registro da pesquisa deve constar o "intervalo de confiança e margem de erro". Por intervalo de confiança, eu entendo que seja na realidade o coeficiente de confiança utilizado para o cálculo das margens de erro, e acho que muitos compartilham dessa interpretação (mais adiante uma breve explicação do que é coeficiente de confiança). É interessante notar que apesar da resolução não exigir que o coeficiente de confiança seja divulgado nas publicações, a maioria dos institutos o fazem.

Como disse, de alguns anos para cá, venho notando uma certa incoerência nas margens de erro das pesquisas eleitorais brasileiras apresentadas pelos institutos. Tal incoerência que eu me refiro na realidade é uma incoerência interna, ou seja, entre as margens de erro de diferentes pesquisas divulgadas por um mesmo instituto. Vou ilustrar essa situação com um exemplo que seguirei daqui em diante, mas que vale para a maioria (se não todas) as demais pesquisas divulgadas por outros institutos. Além disso, estou utilizando esse caso como exemplo, pois é o único que tenho um material (que mostrarei na sequência) de como eles calculam as margens de erros de suas pesquisas. Enfim, sem mais delongas, o exemplo a seguir é referente as pesquisas eleitorais para presidente divulgadas pelo IBOPE (Instituto Brasileiro de Opinião Pública e Estatística). Foram vários os levantamentos divulgados pelo instituto para o cargo de presidência ao longo desse ano. No entanto, vou me concentrar em dois que mostram exatamente o que acontece.

No dia 29 de setembro de 2010 (4 dias antes da eleição), o IBOPE divilgou uma pesquisa eleitoral para a presidência com as seguintes informações (Você pode encontrar essas informações no site do próprio instituto ou na consulta de pesquisas do TSE, aqui sob o protocolo 33252/2010):

Tamanho da amostra: 3.010
Margem de erro: 2%
Coeficiente de confiança: 95%

Já no dia 03 de outubro de 2010 (dia da eleição), o mesmo instituto divulgou a pesquisa de boca de urna para a presidência com as seguintes informações (Você pode encontrar essas informações no site do próprio instituto, aqui, ou na consulta de pesquisas do TSE, aqui sob o protocolo 33805/2010):

Tamanho da amostra: 69.300
Margem de erro: 2%
Coeficiente de confiança: 99%

Rapidamente, você reparará que a margem de erro continua a mesma nas duas pesquisas, apesar do tamanho da amostra da segunda ser mais de 23 vezes o da primeira. Talvez você pensará então que a mudança no coeficiente de confiança de 95% para 99% pode ser a justificativa para isso. Aliás, é bom notar que até a pesquisa de boca de urna, todos os levantamentos do IBOPE eram divulgados com um coeficiente de confiança de 95%, porque a repentina mudança? Mais para frente no post eu escrevo sobre isso. Bom, a seguir, eu vou mostrar que talvez não seja bem assim, mas antes é preciso entender como o IBOPE está calculando essas margens de erro.

O cálculo das margens de erro

Como eu disse, nesse post eu não vou tratar sobre a validade do cálculo das margens de erro para amostras coletadas com a metodologia que a maioria (se não todos) os institutos de pesquisa privados brasileiros utilizam. Esse é um tema (muita mais) polêmico e complexo, que eu prefiro deixar para um outro instante em que eu possa me dedicar melhor a isso. Por ora, vou simplesmente admitir a forma como tais erros são calculados.

Pois bem, como eu disse, um dos motivos pelos quais escolhi esse instituto como exemplo é porque é o único que eu tenho um material que mostra como eles calculam as margens de erros de suas pesquisas. Muito provavelmente (quase certamente, eu diria) os demais institutos calculam exatamente da mesma forma. Se você for no site do IBOPE verá que eles até possuem um pequeno guia de leitura para pesquisas eleitorais, em que eles falam sobre as margens de erro das pesquisas. Veja aqui. No entanto, você logo verá que ele não é muito elucidativo sobre como exatamente eles são calculados.

No entanto, no dia 26 de agosto de 2006, o CONRE-3 (Conselho Regional de Estatística da 3ª Região - SP-PR-MT-MS) organizou o debate "A Estatística na Pesquisa Eleitoral". Uma das apresentações foi de Márcia Cavallari, então diretora do IBOPE Opinião e Diretora de Pesquisa Eleitoral da ABEP - Associação Brasileira das Empresas de Pesquisa (atual diretora do IBOPE Inteligência), que apresentou, entre diversas questões relacionadas a prática da estatística nas pesquisas eletorais, o cálculo utilizado para as margens de erros das pesquisas. Abaixo, apresento a imagem do slide dessa apresentação:

Muitos que estão lendo esse post devem estar familiarizados com a fórmula e provavelmente estão se perguntando porque eu estou me dando todo esse trabalho de procurar a fórmula que eles estão utilizando para calcular a margem de erro das pesquisas, já que essa é "fórmula padrão" de se calcular. A minha resposta é que existem diversas formas, algumas mais adequadas inclusive dependendo do plano amostral utilizado, para se calcular tais margens de erros. Eu apenas quero me certificar de qual está sendo realmente utilizada.

Para aqueles que não estão tão familiarizados com estatística, deixe-me explicar brevemente o que essa fórmula está dizendo. A margem de erro está sendo denotado por d0. Logo, ele é igual a raiz quadrada dessa expressão pq/n multiplicado por esse coeficiente z0. Como consta no slide, p é a proporção encontrada, que no caso das pesquisas eleitorais seria a proporção de pessoas que votam em um determinado candidato. Por outra lado, q = 1 - p, ou seja, é a proporção de pessoas que não votam nesse mesmo candidato, seja porque eleas votam em algum outro ou porque votam branco ou nulo (ou então porque não quiseram responder). Não deve haver problemas no entendimento que n é o tamanho da amostra, ou seja, a quantidade de pessoas entrevistadas. Já esse coeficiente z0 é o que talvez traga maior dificuldade no entendimento. Uma explicação bem rápida: ele está associado ao coeficiente de confiança utilizado no estudo, de forma que, quanto maior a confiança, maior esse coeficiente. Ele pode ser facilmente calculado em uma planilha Excel, por exemplo. Utilize a função INV.NORMP e coloque como parâmetro da função o seguinte valor 1-[(1-gamma)/2], em que gamma é o seu coeficiente de confiança. Por exemplo, vamos utilizar como coeficiente de confiança os 95% apresentado no slide. Vá no Excel e escreva em uma célula =INV.NORMP(1-((1-0.95)/2)). Você verá que ele devolverá o valor 1,96, como também mostrado no slide.

Outra observação importante é qual a proporção p utilizada na fórmula. Em geral, os institutos de pesquisa utilizam para calcular essa margem de erro, p = 0,5 (50%). Como muitos que estão lendo devem saber, eles fazem isso, pois é nesse valor que a função pq = p(1-p) = p-p², atinge seu valor máximo, para 0 < p < 1. Veja o gráfico abaixo da função p(1-p). Ou seja, quando p = 0,5, a margem de erro, dado um determinado tamanho de amostra e um coeficiente de confiança, assume o maior valor possível. É o que denominam método ou opção conservadora. É por isso que quando divulgam as pesquisas eleitorais é dito que "a margem de erro máxima da pesquisa é de...".

A questão

Enfim, vamos ao que me incomoda. Façamos o cálculo das margens de erro em cada uma das duas pesquisas mostradas anteriormente. Primeiramente da pesquisa divulgada no dia 29 de setembro de 2010. Lembrando que nesse caso n = 3.010 e o coeficiente de confiança é de 95%, o que implica em z0 = 1,96, nós temos:

d0 = z0 x √(pq/n) = 1.96 x √(0.5 x 0.5/3010) ≈ 0,0179 = 1,79%

que, arredondando, são os 2% divulgados pelo IBOPE. Ou seja, até aqui, sem problemas.

Agora vamos ao cálculo da margem de erro para a pesquisa de boca de urna. Nesse caso, temos n = 69.300 e a repentina mudança no coeficiente de confiança para 99%, que implica em z0 = 2,58:

d0 = z0 x √(pq/n) = 2,58 x √(0.5 x 0.5/69300) ≈ 0,0049 = 0,49%

que é bem menor que os 2% divulgados pelo instituto.

Se você acha que eu estou fazendo algum cálculo errado, tente você mesmo no Excel!

Se você ler mais cuidadosamente a descrição do estudo no site de consulta do TSE (sob o protocolo 33805/2010) verá o seguinte texto:

"A margem de erro máxima estimada para os votos válidos da pesquisa, considerando-se um intervalo de confiança de 99% e tendo como base o número de votos brancos e nulos da eleição de 2006 é de 2(dois) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra."

Então, eu fui otimista e resolvi recalcular a margem de erro considerando uma amostra com apenas os votos válidos. Em 2006, para o cargo de presidente, do total de votos, 91,58% foram válidos (2,73% foram brancos e 5,68% foram nulos) segundo o TSE. Logo, o IBOPE deve ter estimado que teria n' = 0,9158 x 69.300 ≈ 63.466 entrevistas com votos válidos. Então, recalculando a margem de erro temos:

d0 = z0 x √(pq/n') = 2,58 x √(0.5 x 0.5/63466) ≈ 0,0051 = 0,51%

Ainda bem longe dos 2% publicados.

Resolvi ir um pouco além, e pensei que, de repente, esses 99% de coeficiente de confiança não sejam exatamente 99%, mas sim um arredontamento de 99,49%, por exemplo, o que daria z0 = 2,80 e a margem de erro seria:

d0 = z0 x √(pq/n') = 2,80 x √(0.5 x 0.5/63466) ≈ 0,0056 = 0,56%

Ainda distante. Então, quem sabe os 99% de coeficiente de confiança não seriam um arredondamento para baixo de 99,9%? Por mais absurdo que isso possa ser, resolvi fazer vários cenários com diversos coeficientes de confiança e apresento na tabela abaixo (considerando n' = 63.466):

É interessante notar que só a partir de um coeficiente de confiança de 99,999999999999% (para ser mais exato, algo entre 99.9999999999958% e 99.9999999999959%) é que a margem de erro de 2% (se pensarmos em arredondar 1,54%) passa a ser a calculada pela fórmula utilizada. Aliás, um fato curioso, tanto no Excel quanto no R (software estatístico), eu não consegui calcular o valor crítico da distribuição normal quando o coeficiente de confiança é maior que 99,9999999999999% (o maior valor que aparece na tabela).

Bom, não sei o que você acha, mas me parece um tanto quanto absurdo arrendondar 99,999999999999% para 99%. Na verdade, já me parece absurdo utilizar 99,9%, quanto mais esse outro valor. Logo, acho (e espero) que não seja bem isso que o IBOPE (e outros institutos) esteja fazendo.

Agora, pare e pense. Porque você acha que repentinamente, na pesquisa de boca de urna, o IBOPE resolva mudar o coeficiente de confiança de 95%, que ele vinha utilizando em todas as pesquisas anteriores, para 99%? A resposta você pode encontrar na tabela acima. Veja que, fixado um tamanho de amostra, a margem de erro aumenta conforme você aumenta o coeficiente de confiança. Para aqueles que não estão tão familiarizados com estatística, a ideia é que para comportar um grau de confiança tão grande para uma estimativa intervalar, o intervalo de confiança precisa ficar mais largo, ou seja, a margem de erro ficará maior. Agora, porque eles fariam isso? Bem, como vocês podem imaginar também, fixado um coeficiente de confiança, a margem de erro diminuirá conforme o tamanho da amostra aumenta. Com um número de entrevistas realizados na pesquisa de boca de urna, a tendência, utilizando a fórmula supracitada, é de ter margens de erro bem pequenas, o que não é muito bom para o instituto, pois aumentam as chances de ele errar, por mais paradoxal que isso seja, afinal, o coeficiente de confiança deveria controlar isso, não? Pois é, aqui entramos justamente naquele tema que eu não quero discutir por ora, que é a validade e justificativa de tais margens de erros. Agora perceba uma coisa interessante. Até aqui eu evitei falar o resultado da boca de urna que eles divulgaram, pois estou quase certo que diversos outros blogs e meios de comunicação estão discutindo isso. Veja que Dilma estava com 51% dos votos válidos. Claro que precisaríamos ter esse número com pelo menos duas casas decimais, mas note que se ela tivesse mais que 50,51%, o IBOPE teria que divulgar que, segundo os dados da pesquisa, com 99% de confiança, Dilma venceria ainda no 1º turno, caso utilizasse a margem de erro da forma como estava sendo calculada até as últimas pesquisas.

Eu resolvi ir ainda mais além e ver qual seria o tamanho da amostra que eles teriam de ter coletado para alcançar os 2% divulgados, supondo um coeficiente de confiança de 99% (e continuando a utilizar a fórmula de sempre). O resultado é que eles deveriam ter coletado aproximadamente n* = 4.147 entrevistas com votos válidos. Veja só:

d0 = z0 x √(pq/n*) = 2,80 x √(0.5 x 0.5/4147) ≈ 0,02 = 2%

Ou seja, pouco mais que 15 vezes menos o que foi realmente coletado.

Conclusões

Isso me faria concluir que eles estão então calculando para a pesquisa de boca de urna a margem de erro de uma forma diferente que as demais pesquisas. Eles poderiam fazer isso? Claro, afinal o plano amostral é diferente das pesquisas anteriores e, logo, o cálculo poderia considerar o efeito do planejamento de forma diferente. No entanto, aparentemente eles não estavam considerando a estrutura do plano amostral (estratificação e conglomerização) até então, porque fariam apenas na pesquisa de boca de urna? Ou seja, para mim pelo menos, existe alguma incoerência na forma como as margens de erros estão sendo calculadas entre diferentes pesquisas do instituto. E isso não foi apenas nessas eleições e nem apenas para o cargo da presidências. Vocês podem ver, por exemplo, que nas pesquisas eleitorais em 2006 ocorreu exatamente a mesma coisa. Além disso, como mencionei anteriormente, isso não se restringe apenas ao IBOPE, mas a maioria (se não todos) os demais institutos de pesquisa privados brasileiros que divulgam pesquisas eleitorais, em menor ou maior escala.

Nessa margem de erro poderia haver erros não amostrais (como não resposta, erros de mensuração ou efeitos de questionário) então? Novamente, poderia, mas nada indica que eles estavam incluindo outras fontes de variabilidade de erro nas pesquisas anteriores. Porque incluiriam justamente na boca de urna? Aliás, essa é provavelmente uma justificativa que você pode esperar ouvir: com amostras grandes como essa, o erro amostral frente ao erro não amostral é desprezível, logo, o erro apresentado não é necessariamente referente a essa fórmula, mas sim a um erro não amostral estimado. O que é preciso questionar é: porque então isso não foi considerado nas pesquisas anteriores (como aparentemente não foi mesmo)? Além disso, se é para considerar o erro não amostral, um medida melhor para isso seria o erro quadrático médio, que contempla tanto os erros variáveis de uma pesquisa (como a variabilidade amostral) quanto os vieses, que em geral é onde se concentra a maior parte dos erros não amostrais.

Não acho que isso seja uma conspiração do PT ou PSDB, ou da Globo ou da Folha/Estado de São Paulo. Não acho que isso tenha sido feito para beneficiar candidato A ou candidato B, mesmo porque isso acontece em diversos institutos para pesquisas de diversos cargos. Se me perguntarem o que eu acho que está acontecendo, eu responderia que muito provavelmente, por não calcular adequadamente o erro amostral, fazendo-se as mais diversas suposições de modelos (novamente, tópico para outro post), as margens de erro que esses institutos calculam (utilizando a fórmula citada acima) com amostras tão grandes como essas das pesquisas de boca de urna são extramemente baixas e, para não correr o risco de "errar" o resultado do pleito eleitoral, cuja verificação se dará horas após a coleta da amostra, eles optam por manter a margem de erro em um patar mínimo de segurança, nesse caso, de 2%. Ou seja, da forma como está, os institutos escolhem a dedo qual deve ser a margem de erro de suas pesquisas de forma a lhe trazer os resultados mais convenientes e seguros. Como mencionado anteriormente, imagine as consequências para esses institutos nesse 1º turno (e no 1º de 2006 também) nas conclusões dos resultados, caso a forma como as margens de erros vinham sendo calculadas fossem mantidas. No entanto, infelizmente, as consequências para a sociedade brasileira com tal prática e outros problemas metodológicos dessas pesquisas podem ser ainda piores...

Na minha opinião, os institutos de pesquisa que fazem isso deveriam explicitar e se justificar perante a sociedade e aos especialistas do assunto o que estão fazendo. Há por trás desses cálculos e fórmulas utilizados, para chegar nos números e resultados divulgados, toda uma ciência, seja ela Estatística ou "Survey Methodology". Da maneira como está, não são apenas tais institutos que saem desacreditados, mas toda ciência e os seus profissionais e pesquisadores por trás dela também. Seria interessante e importante ouvir o que os responsáveis por essas pesquisas e institutos tem a dizer a respeito disso, para que esse tipo de coisa não se repita, nem no 2º turno nem em mais nenhuma futura eleição no Brasil. Deixo o espaço aberto aqui para essa discussão.

Também gostaria de ouvir/ler as impressões de você que acabou de ler esse post! Deixe sua opinião nos comentários.

(Agradecimentos a Tiago Mendonça pela revisão do texto)

19 comentários:

Zobral6 de outubro de 2010 às 06:45
Parabéns, cara!
Tenho algum conhecimento de estatistica e pude compreender 100% da sua ideia. Parece "bullet-proof".
POr outro lado, nao consigo avaliar se alguem sem o minimo de formacao conseguira entender.
Concordo com suas conclusoes.
Mais uma vez parabéns.
Abraços.
ResponderExcluir
Respostas
Claudio Ferreira Jr6 de outubro de 2010 às 07:40
Nishimura, acho que vc vai gostar de ver as "explicações" do Ibope e do Datafolha: http://www.tvcultura.com.br/rodaviva/ e http://globonews.globo.com/Jornalismo/GN/0,,MUL1622908-17665-309,00.html

abs
ResponderExcluir
Respostas
Rafael Stern6 de outubro de 2010 às 11:37
Acho que, por uma perspectiva jurídica, seria difícil justificar que o erro calculado está "errado". Parece-me que a exigência é apenas de que o "erro real" seja menor ou igual ao calculado.

Note, por exemplo, que aplicando a desigualdade p(1-p) \leq 1/4 você já está, a princípio, calculando um erro maior do que o "real". Se você pode fazer isso, por que não poderia inflar o erro de qualquer outra forma?

Contudo, ainda que eu concorde que esse grau de arbitrariedade possa ser indesejável, acho que o problema é mais embaixo...

Vamos analisar um caso extremo... Se eu simplesmente ignorar os dados que eu coletei, e resolver apenas dizer que todas as estimativas estão em [0,1]... e apenas isso. Intervalo de confianca com erro exatamente 100% e confianca... 100%.

Isso significa que com confianca 100% haverá 2o turno? Sim... mas o que essa frase significa? Certamente não é o que pessoas sem treinamento estatístico pensarão que significa. Em outras palavras, se você pensar nisso como um "teste de hipótese", a importante variável que é o poder do teste foi completamente desprezada...

Esse é o ponto central ao qual eu queria chegar. Confianca e margens de erro isoladamente nao significam nada. É necessário existir algum tipo de consideracão a respeito de "poder", se voce quer falar frases tão bombásticas quanto "Com confianca x, haverá 2o turno".

Caso contrário, qual o problema de alguem falar que é menos preciso do que é de "fato" (e é "fato" porque estamos evitando a discussão maior sobre o quão bons são os modelos...). Isso só pode ser ruim para essa pessoa, afinal, precisão é uma característica desejável :) ...

Moral da história... frases que juntem confianca e elementos do espaco paramétrico deveriam ser proibidas...
ResponderExcluir
Respostas
Rafael Stern6 de outubro de 2010 às 11:40
PS: Frases que juntem as palavras probabilidade e elementos do espaco paramétrico deveriam ser fortemente incentivadas, pelo contrário :)
ResponderExcluir
Respostas
rizbicki6 de outubro de 2010 às 14:06
Mto bom o post!

Pergunta: algum instituto tenta fazer inferência à medida que os resultados das eleições vão sendo divulgados?
ResponderExcluir
Respostas
Anônimo6 de outubro de 2010 às 16:19
O Mr. Stern disse coisas importantes. Essa parece ser uma questão associada com testes de hipóteses, estamos analisando se haverá segundo turno ou não.

Sabemos que quando o tamanho amostral aumenta muito, o tese se torna mais poderoso. Se a hipótese nula em questão é: "terá segundo turno", temos dois tipos de erro. O erro tipo I que seria rejeitar a hipótese nula quando esta é verdadeira, ou seja, dizer que "não terá segundo turno" quando na verdade "terá segundo turno". O erro tipo II seria aceitar a hipótese nula quando na verdade ela é falsa. Ou seja, escolher "terá segundo turno" quando na verdade "não terá segundo turno".

Se você mantiver fixado a probabilidade do erro tipo I e aumentar o tamanho amostral significativamente, então a probabilidade do erro tipo II irá despencar rapidamente (imagine vc fixando alpha = 5% e tendo um beta < 0,000000001%, sendo alpha = prob do erro tipo I e beta = prob do erro tipo II). Portanto, o teste tenderá a ser extremamente liberal rejeitando a hipótese nula com maior probabilidade, pois a probabilidade de cometer o erro tipo II vai ser tornando virtualmente igual a zero enquanto que a probabilidade de cometer o erro tipo I está fixada. Se por acaso vc fixar alpha = c*beta (prob do erro tipo I proporcional ao erro tipo II, sendo c constante em relação ao tamanho amostral), o nível nominal deveria então diminuir com o tamanho amostral, o que faz pleno sentido. Portanto, faz sentido diminuir o nível de significância à medida que a amostra aumenta, pois para amostras grandes a probabilidade do erro tipo II já será extremamente pequena. Isso é uma espécie de correção do teste para amostras grandes, visto que a prob do erro tipo II irá certamente diminuir se a prob do erro tipo I for fixada.

Contudo, parece que do jeito que eles fizeram (ou pelo menos disseram que fizeram) não foi muito adequado.

Alexandre G. Patriota
ResponderExcluir
Respostas
rizbicki6 de outubro de 2010 às 16:32
Este comentário foi removido pelo autor.
ResponderExcluir
Respostas
rizbicki6 de outubro de 2010 às 16:33
Apenas um comentário sobre a hipótese de 2o turno: o procedimento utilizado em geral para testar segundo turno (i.e., tomar o candidato com maior porcentagem de votos na amostra, calcular seu intervalo de confiança 95% e verificar se o ponto 1/2 está dentro do intervalo) não está de acordo com as regras usuais para testes clássicos (razão de verossimilhanças, testes uniformemente mais poderosos etc). Seu nível de significância não me parece ser 5%. O teste da razão de verossimilhanças para esta hipótese está descrito na Dissertação de Mestrado do Victor Fossaluza (está disponível em www.teses.usp.br).
ResponderExcluir
Respostas
Anônimo6 de outubro de 2010 às 17:53
Naturalmente no meu comentário (Anônimo 6 de out, 16:32), deve ser considerado que a hipótese alternativa está fixada num valor específico.

Alexandre G. Patriota.
ResponderExcluir
Respostas
Rafael Stern7 de outubro de 2010 às 07:46
Acho que as consideracões anteriores foram todas interessantes e tocam em pontos controversos da metodologia utilizada pelo IBOPE. Contudo, parecem tentar "salvar" a Teoria mas ignorar um aspecto que eu acho fundamental para essa análise (e que o ph:

Não basta que a metodologia seja estatisticamente correta, é necessário que os termos utilizados e as conclusoes alcancadas possam ser adequadamente explicados para os consumidores da pesquisa.

É possível, por exemplo, que ocorram situacões em que um Intervalo de Confianca nao é degenerado mas já se tem certeza sobre o valor do parâmetro. Ainda que não exista problema da perspectiva da Estatística Clássica, como explicar isso aos consumidores de pesquisas eleitorais?

Por mais que estatísticos reforcem que confianca é uma característica do método empregado para gerar o intervalo e não uma característica dos particulares dados observados, esse conceito não parece ser absorvido pela maioria das pessoas... O que leva a um questionamento sobre a utilidade do uso dessa palavra em noticiários, etc...

Em outras palavras, um problema que parece importante e anterior a consideracões técnicas é: De que forma é possível exibir os resultados da análise de forma razoavelmente compreensível ao consumidor dela?

A resposta Bayesiana parece muito mais simples (e deve ser por isso que tem um Bayes Rules no cabecalho desse blog) e, portanto, daí o desafio a uma explicacão clássica :)
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 14:38
Muito obrigado a todos pelos comentários!
Vou tentar responder cada um deles.

E se possível, continuem comentando e divulgado o tema, pois acredito ser de grande importância.
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 14:42
@Zobral: Muito obrigado pelo seu comentário. Pois é, uma outra pessoa disse o mesmo para mim. Eu tentei colocar as ideias da forma mais simples possível. Talvez pudesse tornar ainda mais simples, mas provavelmente deixaria o post, que já é grande, ainda maior...

O que eu pretendo fazer é colocar alguns posts ao longo do tempo explicando melhor alguns conceitos básicos estatísticos que possam ajudar a compreender melhor essa e outras ideias. Espero que dê certo!
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 14:48
@Claudio: Pois é, vi os dois videos... é um pouco triste ver que existe esse concenso entre os grandes institutos que nada precisa ser alterado...

O problema é: apesar de falarem que tratam o problema do ponto exclusivamente técnico, o que eu menos vejo é uma boa discussão metodológica, com evidências seja por algum experimento empiríco ou por um tratamento teórico a questão. Como disse, é triste ver esse tipo de coisa nesse meio privado brasileiro. A discussão por aqui é em um nível muito mais elevado. Para dizer a verdade, não há nem comparação...
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 15:07
@Mr. Stern:
Sobre seu 1º comentário: Talvez eu realmente tenha passado a impressão que considerava "errado" o erro calculado por eles. Desculpe-me, não era essa a intenção, mesmo porque, como eu disse, no momento eu quero evitar esse tipo de discussão. O problema é muito mais embaixo nesse caso. O que eu quero levantar é a incoerência entre a forma utilizada em um momento e a forma utilizado em outro.

Ou seja, eu não tenho problema em inflar o erro, desde que isso seja seguido ao longo dos levantamentos consistentemente. Pelo menos eu acho que deveria haver um padrão a ser seguido ao menos internamente pelo instituto entre suas pesquisas. Caso contrário, na minha opinião, fica algo (ainda mais) sem sentido.

Concordo com você que o problema é mais embaixo, e ainda mais com suas colocações sobre confiança, margens de erro e elementos do espaço paramétrico. Mas, meu ponto é analisar certas incoerências na prática da teoria que está sendo atualmente utilizada.

Mas acho que talvez você mesmo tenha percebido um pouco disso no seu 2º comentário, certo?

Sobre seu 2º comentário (na verdade 3º, né?): você pega exatamente no ponto em que eu insisto que devemos ter em mente quando lidamos com esses aspectos práticos de estatística e surveys: as pessoas que estão recebendo as informações que estamos passando para elas estão realmente entendendo o que isso tudo quer dizer?

De fato, também acredito que, no que diz respeito a análise e interpretação dos dados dessas (e outras) pesquisas, a resposta Bayesiana é muito mais simples e direta. Mas agora eu deixo uma pergunta: quando dizemos que a probabilidade de candidato A ganhar a eleição é de 80%, será que as pessoas realmente entendem o que isso quer dizer? Se o candidato A não ganhar a eleição, será que a população entenderá que o ocorreu não foi necessariamente um erro?

Esse é o ponto em que eu quero chegar: mesmo que a alternativa Bayesiana seja mais simples e direta, ela não nos exime de um dever que acredito que seja até civico, por parte de nós estatísticos: a educação estatística para a população geral. Não adianta mudar apenas a forma como os resultados são apresentados, se nem assim as pessoas que consomem essas informações não são capazes de interpretar corretamente o que aquilo quer dizer, por mais óbvio e simples que nós achamos.
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 15:09
@rizbicki: Do que é de meu conhecimento não. Imagine, se os institutos ainda calculam margem de erro assumindo iid e utilizam o método empregado para anunciar se haverá 2º turno ou não, você acha mesmo que eles tentariam fazer algo assim? :P
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 15:17
@Alexandre: Sim, concordo com seus pontos. Mas na realidade, minha crítica não é exatamente por eles mudarem o coeficiente de confiança. Desculpe-me se deixei essa impressão. A questão do coeficiente de confiança era apenas para verificar o que poderia estar acontecendo. Apesar de eu não ver problemas em alterar o coeficiente de confiança (ou nível de significância) a priori, eu acho que altera-lo a posteriori, após ver os resultados, é "dar uma roubadinha". E é isso que eu quis dizer e o que eu acho que os institutos estejam fazendo...

Só uma curiosidade: o US Census Bureau divulga boa parte dos resultados de seus levantamento com uma margem de erro. Apesar das amostras que eles utilizam ser bem maiores que essa que o IBOPE utilizou, todas as margens de erro que eu vi eles divulgarem tem um coeficiente de confiança de 90%. Veja: http://www.census.gov
ResponderExcluir
Respostas
Raphael11 de outubro de 2010 às 15:19
@rizbicki: Sim, é verdade.
Agora, na dissertação, o Victor me parece assumir iid, não? :P
ResponderExcluir
Respostas
Marcos23 de outubro de 2010 às 12:23
Muito bom o texto como sempre cara. Eu concordo contigo nesse negócio da "roubadinha". Eu acho que deveria se deixar claro em algum lugar como o cálculo é feito (e suposições), já que a rigor nem margem de erro existiria para uma pesquisa não probabilística senão cada um faz o que quer. Eu lembro que no passado eu me deparei com a responsabilidade de calcular a margem de erro para pesquisas não probabilisticas e aí claro que a gente esperneia e tal mas o melhor que conseguimos fazer é deixar claro as suposições. O problema é que o usuário da informação não entende e nem quer entender de suposições então a meu ver dá na mesma, você ainda tá soltando informação que nem você sabe a qualidade.

Mas voltando ao assunto, considere uma pesquisa igual a do Ibope que cá entre nós, estatístico que é estatístico não vai colocar a mão no fogo. Se a amostra é pequena, e dada a experiência e tal, eu ainda ia lá e usava a tal fórmula e essa é a margem de erro. Mas quando a amostra cresce a MOE cai muito e para mim agora o problema não é erro amostral mais, o problema são outros tipos de erros pois a amostra não é probabilística.

É como se tivéssemos uma fórmula também para o erro não amostral e o erro total fosse X1*(Erro Amostral) + X2*(Erro Não Amostral), X1 e X2 são pesos que variam com o N tal que X2 cresce para N grande. Quando você tem um N=10000 por exemplo, você não tá mais preocupado com erro amostral que é pequeno, está preocupado com outros erros decorrentes do método não probabilístico e sua associação com a variável resposta, erros que você na verdade não tem como quantificar.

Claro que eu não me sentia confortável falando que uma pesquisa não probabílista de amostra 50000 tinha aquela minúscula margem de erro dada pela fórmula do Ibope, Então o que eu fazia era meio que aplicar uma regra empírica do tipo sempre que a margem de erro é menor que 2% a gente diz que é 2% para levarmos um pouco em conta problemas com amostra não probabilística. Meio que usando a media ponderada de erro amostral e não amostral de uma forma bem zoada, concordo, mas cá entre nós, não é fácil fazer isso ficar menos zoado (principalmente levando em conta as limitações da prática) pois a verdade é que o cálculo nunca é possível de ser feito e o melhor jeito de sabermos o quão confiável são os resultados é nos basear em experiências passadas, creio eu, e não usando qualquer fórmula.

Enfim, imagino que esse caso que você encontrou possa ter uma explicação desse tipo, o que por si só não resolve o problema, mas não sei se tem jeito de resolver, isto é, eles poderiam ser mais claros quanto ao cálculo mas se isso for feito ainda vai ter muita gente metendo o pau no cálculo, eu imagino, o que não sei se é melhor ou pior... Eu acho que tudo tem a ver com a resposta da pergunta - "Como calcular/divulgar o confiança/qualidade de uma pesquisa não probabilística?".
ResponderExcluir
Respostas
Marcos23 de outubro de 2010 às 13:07
Fala Cara, muito bomo texto, como sempre!

Sim, considerando a fórmula temos uma inconsistência. Mass eu ach oque esse é um problema complicado de resolver. O correto não seria exigir que eles sigam a fórmula, pois ela é sabidamente válida apenas para amostras probabilísticas, mas sim não divulgar a margem de erro. Mas uma pesquisa sem uma idéa de sua qualidade não vale nada. Então o que fazer?

Eu sempre pensei que seria ok divulgar o erro, junto com como foi calculado e suposições e algo relacionado às suposições mas mais simples tal que o usuário entendesse. Mas aí temos uma fórmula para calcular o erro amostral e uma amostra que pode ter erros não amostrais a torto e direito. Por isso o erro divulgado para uma pesquisa eleitoral seria talvez o erro amostral (dado pela fórmula) + um erro não amostral (dado pelo ?). Não sei também se seria realmente uma soma.

Quando a amostra cresce o Erro Amostral fica muito pequeno e poderíamos considerar que chega um ponto que ele é desprezível. Mas ainda temos o erro não amostral, agora importante, mas como calcular? Eu acho que não tem saída, você tem que calcular de alguma forma se quiser divulgar um erro.

Então o que eu acho é que em situações práticas o estatístico se sente mais ou menos confortável com o erro amostral conservativo (usando p = 50% e tal), mas quando a amostra cresce ele(a) sabe que a pesquisa é não probabilística e é ilusório divulgar um resultado tão preciso quanto o dado pela fórmula do erro amostral. Isso é talvez o que acontece nesse caso que você encontrou, sem algo formal explicando, o que parece piorar as coisas...

Enfim, acho que temos uma inconsistencia, mas a verdadeira questão pra como dar uma medida da qualidade dessas pesquisas quando não temos uma fórmula que possa ser sempre aplicada?
ResponderExcluir
Respostas

Adicionar comentário

Todos têm uma opinião. Expresse a sua! Seja a priori ou a posterior...