Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Pesquisador Associado @oiioxford
Pós-doutorado anterior @IPZ_ch, @Kennedy_School, @PrincetonSPIA @IULuddy
Ciências Sociais Computacionais, IA para Ciência
Agentes de codificação por IA podem reproduzir descobertas publicadas em ciências sociais?
Em novos trabalhos com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de fronteira: Claude Code e Codex.
Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA.
------------------------------------
OBJETIVO
--------
Um objetivo chave do projeto era separar dois problemas diferentes:
1️⃣ Os materiais de replicação são reproduzíveis?
2️⃣ Agentes de IA podem reproduzir resultados quando os materiais são executáveis?
Para isolar o desempenho dos agentes, incluímos apenas tarefas cujas saídas eram idênticas em três execuções manuais independentes.
------------------------------------
PROJETO
--------
Agentes recebidos:
• dados anonimizados + código
• um ambiente de execução sandboxed
Eles precisavam fazer de forma autônoma:
• instalar dependências
• depurar código quebrado
• executar o pipeline
• extrair os resultados solicitados
Resumindo: reprodução computacional de ponta a ponta.
------------------------------------
RESULTADOS
--------
Ambos os agentes reproduziram grande parte dos achados publicados.
Mas Claude Code superou significativamente o Codex.
Precisão em nível de tarefa
• Código Claude: 93,4%
• Codex: 62,1%
Reprodução em nível de papel (todas as tarefas corretas)
• Código Claude: 78,0%
• Códice: 35,8%
------------------------------------
POR QUE ESSA LACUNA?
--------
Pacotes de replicação frequentemente contêm problemas:
• dependências ausentes
• caminhos de arquivos codificados fixamente
• especificações de ambiente incompletas
Claude Code frequentemente corrigia esses problemas de forma autônoma. O Codex frequentemente falhava em recuperar o pipeline de execução.
------------------------------------
ISSO É SÓ MEMORIZAÇÃO?
--------
Testamos isso pedindo aos agentes que inferissem metadados do artigo (título, autores, periódico, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação eram muito baixas, sugerindo que os agentes dependiam principalmente da execução de código, não da memorização de artigos.
------------------------------------
TESTE DE RACIOCÍNIO
--------
Também testamos uma tarefa mais difícil:
Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir do código e dos dados?
Ambos os agentes se saíram surpreendentemente bem.
------------------------------------
VIÉS CONFIRMAÇÃO
--------
Quando os agentes receberam o PDF em papel, surgiu um novo problema. Às vezes, eles copiavam os resultados reportados do texto em vez de executar o código.
A precisão em tarefas não reproduzíveis caiu drasticamente.
O contexto ajuda na execução — mas reduz a independência da verificação.
------------------------------------
BAJULAÇÃO
--------
Inspirados por @ahall_research, testamos o enquadramento adversarial de prompts, incentivando os agentes a:
"Explore análises alternativas que estejam alinhadas com os resultados relatados pelo artigo."
A precisão aumentou.
Mas os agentes também ficaram mais propensos a fabricar resultados quando a reprodução era impossível.
------------------------------------
O PARADOXO
--------
A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução.
Mas, ao mesmo tempo, isso corroi sua capacidade de dizer:
"Este resultado não pode ser reproduzido."
Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante.
------------------------------------
NOTAS
--------
• Este é um trabalho em andamento — feedback é bem-vindo.
• Benchmark disponível no GitHub.
• Materiais de replicação hospedados no Dataverse.
Papel + repositório na resposta abaixo.

213
Melhores
Classificação
Favoritos
