Metodologia

Critérios de inclusão, agregação e auditoria das pesquisas.

Fontes e Coleta de Dados

Incluímos pesquisas de intenção de voto divulgadas por institutos com atuação nacional ou regional, desde que a data de coleta, amostra e resultados por candidato (ou opções) estejam disponíveis. Priorizamos fontes primárias (sites dos institutos, TSE quando aplicável).

Ingestão Assistida por IA: Utilizamos agentes inteligentes (LLMs) que monitoram portais de notícias para encontrar e extrair publicações de novas pesquisas ("News-First Fallback"). Isso garante atualização rápida de cenários em tempo real. O agente extrai exclusivamente faturários numéricos e fatos concretos e pré-preenche nossa base. Todas as pesquisas são supervisionadas e cruzam com bases oficiais do TSE quando disponíveis.

Agregação (weighted_avg_v1)

O agregador usa um modelo de média ponderada com:

  • Meia-vida: pesquisas mais recentes têm peso maior (decay exponencial por dias desde a coleta).
  • Raiz do n: peso proporcional a √(tamanho da amostra) para refletir menor incerteza em amostras maiores.
  • Ruído por casa (sigma_house): termo fixo de incerteza por instituto.
  • Monte Carlo: simulação intensiva que gera distribuições probabilísticas, permitindo derivar intervalos de confiança consistentes e probabilidades assertivas de um candidato ir para o 2º Turno (Top 2) ou ser o 1º Colocado isolado.

Rigor estatístico e Inovações do Modelo

  • Sigma House e Systemic Drift: O risco de confiar plenamente no n agregado é as pesquisas cometerem erros "correlacionados" ou estarem defasadas da realidade da urna. Modelamos um "systemic drift" e incertezas explícitas por instituto para evitar predições com mais de 99.9% de certeza de forma matematicamente irresponsável.
  • Zero-Noise Shield: Em modelos Monte Carlo com ruído gaussiano padrão, candidatos com 0% nas estimativas brutas começam a exibir votações irreais ("ghost prob") devido ao ruído flutuante. Cuidamos dessa anomalia silenciando o ruído artificial em opções descartadas na média ou cuja soma seja inexistente, oferecendo as estimativas mais realistas possíveis.
  • Normalização Monte Carlo: em cada simulação, após o ruído e a média ponderada, os percentuais são re-normalizados para que a soma seja exatamente 100%. Assim, toda amostra MC respeita o limite de 100% dos votos e as estimativas permanecem coerentes.
  • Cutoff de 120 dias: apenas pesquisas com data de fim de campo até 120 dias antes da data de referência entram no agregado, mantendo o foco no cenário político atual.
  • Transparência de base: todos os dados são convertidos para a base “Votos Totais” quando a pesquisa foi divulgada em votos válidos (usando Brancos/Nulos/Indecisos). Isso garante comparabilidade justa entre institutos e períodos.

Cenários (estimulada A/B/C, etc.) não são misturados: cada recorte é agregado separadamente. Categorias como Branco/Nulo, NS/NR e Outros são tratadas à parte e não entram na disputa entre candidatos.

Fontes e validação da metodologia

Para dar credibilidade e permitir que cidadãos, veículos de mídia e pesquisadores confiem e citem nosso agregador, relacionamos cada elemento da metodologia a fontes técnicas e à validação interna do projeto.

  • Agregação e média ponderada: prática consolidada em previsão eleitoral. Referência pública de metodologia de médias de pesquisas e efeitos por instituto: FiveThirtyEight — How our polling averages work (abre em nova janela); Calculating house effects of polling firms (abre em nova janela).
  • Peso por recência (meia-vida): decay exponencial é padrão em agregação de pesquisas para priorizar o cenário atual.
  • Peso por √n (tamanho da amostra): a incerteza de uma proporção é da ordem de 1/√n; ponderar por √n reflete maior precisão em amostras maiores.
  • Sigma_house e incerteza entre institutos: modelagem de "house effects" evita intervalos artificialmente estreitos; FiveThirtyEight e outras metodologias públicas discutem o tema.
  • Monte Carlo e intervalos de confiança: simulação Monte Carlo é prática estabelecida para propagar incerteza e obter intervalos (ex.: 95% com percentis 2,5% e 97,5%).
  • Fonte oficial para conferência: a fonte primária oficial no Brasil para dados eleitorais e pesquisas é o Tribunal Superior Eleitoral (TSE) (abre em nova janela). Recomendamos conferir números no site do TSE quando aplicável.

O projeto mantém documentação técnica detalhada e um relatório de validação do modelo (revisão estatística da fórmula dos pesos, cutoff, Monte Carlo, normalização e definições de win_prob e top2_prob), disponíveis no repositório e para auditoria por pesquisadores e veículos de mídia.

Auditoria e Transparência

Cada pesquisa é vinculada a uma fonte (URL, data de acesso, hash do conteúdo). Correções e issues de dados são registrados e mantidos internamente para rastreabilidade, enquanto o portal exibe dados publicamente auditáveis (metadados, estatísticas detalhadas, e o link original da fonte).

Adicionalmente, nossos motores extraem e exibem sempre que possível o enunciado exato (pergunta formulada ao eleitor)para cada cenário testado. Isso elimina ambiguidades interpretativas em questões espontâneas e estimuladas, garantindo fidelidade total à metodologia original do instituto.

API

O portal consome apenas endpoints públicos da API (/api/v1/polls, /api/v1/models, /api/v1/aggregates, /api/v1/ask). Nenhum endpoint administrativo é exposto na interface.

Imparcialidade e Rigor

O Eleição em Dados é um projeto orientado por dados, independente e sem qualquer vínculo partidário ou ideológico. Nossa missão é puramente técnica: aplicar métodos estatísticos rigorosos a dados públicos para oferecer clareza ao cenário eleitoral. O modelo não possui "preferências" e trata todos os institutos e candidatos exclusivamente sob o prisma matemático e estatístico.

Imparcialidade, possíveis erros e canal de contato

O E²D é um projeto orientado por dados, sem vínculo partidário ou ideológico. O modelo trata todos os candidatos e institutos de forma uniforme, sob critérios estatísticos. Não fazemos interpretações políticas — apenas agregamos e exibimos métricas.

Os dados podem conter erros (extração, digitação ou das fontes originais), pois utilizamos tecnologia — incluindo ingestão assistida por IA — para coletá-los e agregá-los. Se você identificar algum erro, problema, inconsistência, ou quiser enviar sugestões, críticas ou colaborar com o projeto, envie um email para e2d@eleicaoemdados.com.br. Seu feedback é essencial para melhorarmos a precisão e a transparência.

Em caso de dúvida sobre os dados: a fonte primária oficial são os dados públicos disponíveis no site do TSE (Tribunal Superior Eleitoral). Recomendamos que, para conferir a veracidade ou comparar números, você consulte o site do TSE (abre em nova janela).