Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Os agentes de codificação de IA podem reproduzir descobertas publicadas em ciências sociais?
Em um novo trabalho com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de ponta: Claude Code e Codex.
Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA.
------------------------------------
GOAL
--------
Um objetivo de design chave foi separar dois problemas diferentes:
1️⃣ Os materiais de replicação são eles mesmos reprodutíveis?
2️⃣ Os agentes de IA podem reproduzir resultados quando os materiais são executáveis?
Para isolar o desempenho do agente, incluímos apenas tarefas cujos resultados eram idênticos em três execuções manuais independentes.
------------------------------------
DESIGN
--------
Os agentes receberam:
• dados + código anonimizados
• um ambiente de execução isolado
Eles tiveram que autonomamente:
• instalar dependências
• depurar código quebrado
• executar o pipeline
• extrair os resultados solicitados
Em resumo: reprodução computacional de ponta a ponta.
------------------------------------
RESULTADOS...

Top
Classificação
Favoritos
