Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Trabalho em tecnologia, política e governação. Consultor na a16z crypto e Meta.
É interessante que o código do Claude tenha um desempenho melhor do que o do Codex neste exercício. Temos achado que são aproximadamente semelhantes, mas as nossas tarefas são bastante diferentes!
@xuyiqing, você fez alguma comparação entre os dois no seu trabalho de replicação?

Meysam AlizadehHá 16 horas
Os agentes de codificação de IA podem reproduzir descobertas publicadas em ciências sociais?
Em um novo trabalho com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de ponta: Claude Code e Codex.
Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA.
------------------------------------
GOAL
--------
Um objetivo de design chave foi separar dois problemas diferentes:
1️⃣ Os materiais de replicação são eles mesmos reprodutíveis?
2️⃣ Os agentes de IA podem reproduzir resultados quando os materiais são executáveis?
Para isolar o desempenho do agente, incluímos apenas tarefas cujos resultados eram idênticos em três execuções manuais independentes.
------------------------------------
DESIGN
--------
Os agentes receberam:
• dados + código anonimizados
• um ambiente de execução isolado
Eles tiveram que autonomamente:
• instalar dependências
• depurar código quebrado
• executar o pipeline
• extrair os resultados solicitados
Em resumo: reprodução computacional de ponta a ponta.
------------------------------------
RESULTADOS
--------
Ambos os agentes reproduziram uma grande parte das descobertas publicadas.
Mas Claude Code superou substancialmente o Codex.
Precisão a nível de tarefa
• Claude Code: 93,4%
• Codex: 62,1%
Reprodução a nível de artigo (todas as tarefas corretas)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
POR QUE A DIFERENÇA?
--------
Pacotes de replicação frequentemente contêm problemas:
• dependências ausentes
• caminhos de arquivo codificados
• especificações de ambiente incompletas
Claude Code frequentemente reparou esses problemas autonomamente. Codex frequentemente falhou em recuperar o pipeline de execução.
------------------------------------
É APENAS MEMORIZAÇÃO?
--------
Testamos isso pedindo aos agentes que inferissem os metadados do artigo (título, autores, jornal, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação foram muito baixas, sugerindo que os agentes se basearam principalmente na execução de código, não na memorização de artigos.
------------------------------------
TESTE DE RAZOAMENTO
--------
Também testamos uma tarefa mais difícil:
Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir de código e dados?
Ambos os agentes se saíram surpreendentemente bem.
------------------------------------
BIASES DE CONFIRMAÇÃO
--------
Quando os agentes receberam o PDF do artigo, um novo problema surgiu. Às vezes, eles copiavam os resultados relatados do texto em vez de executar o código.
A precisão em tarefas não reprodutíveis caiu drasticamente.
O contexto ajuda na execução — mas reduz a independência da verificação.
------------------------------------
SYCOPHANCY
--------
Inspirados por @ahall_research, testamos a formulação de prompts adversariais, incentivando os agentes a:
"explorar análises alternativas que se alinhem com os resultados relatados do artigo."
A precisão aumentou.
Mas os agentes também se tornaram mais propensos a fabricar resultados quando a reprodução era impossível.
------------------------------------
O PARADOXO
--------
A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução.
Mas ao mesmo tempo, erode sua capacidade de dizer:
"Este resultado não pode ser reproduzido."
Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante.
------------------------------------
NOTAS
--------
• Este é um trabalho em progresso — feedback é bem-vindo.
• Benchmark disponível no GitHub.
• Materiais de replicação hospedados no Dataverse.
Artigo + repositório na resposta abaixo.

83
A Free Systems está a expandir-se.
Contratei um grupo de mais de 10 investigadores e estamos a construir um novo laboratório potenciado por IA que irá fornecer pesquisas, ideias e protótipos mais oportunos, destinados a preservar a liberdade humana num mundo algorítmico.
Nas próximas semanas, iremos lançar pesquisas sobre como a IA recomenda que as pessoas votem no Japão, sobre os nossos experimentos bem-sucedidos em apostas nas primárias do Texas, sobre a adaptação dos métodos de previsão de ponta da Bridgewater para prever a geopolítica, e muito mais.
Também estaremos a organizar um hackathon da Free Systems que me deixa super entusiasmado.
Enquanto construímos, não queremos perder de vista o que já fizemos---o objetivo é que cada peça de pesquisa contribua para um processo de agregação, e não seja deixada online e depois esquecida para sempre.
Para esse fim, estamos a iniciar uma atualização de sexta-feira chamada "System Check" onde fornecemos atualizações sobre a nossa pesquisa existente, como ela se relaciona com novos desenvolvimentos e o que isso significa para a construção da Free Systems.
A primeira já saiu hoje. Deixa-me saber o que achas!

102
No próximo trimestre, vou lecionar um curso de graduação radical, SISTEMAS GRATUITOS, destinado a reimaginar a democracia e como a estudamos e ensinamos para a era da IA.
Os alunos aprenderão sobre o futuro da IA e da democracia, mas também *construirão*.
Cada aluno receberá uma conta Claude Code e uma chave de API OpenRouter financiada e uma diretiva principal: construir as ferramentas que podem nos ajudar a preservar a liberdade humana em um mundo cada vez mais algorítmico.
Vamos construir agentes de IA pessoais que processam notícias políticas, negociam em mercados de previsão política, votam em nosso nome e deliberam com os agentes de outros alunos em uma legislatura agente... entre muitas outras coisas.
E haverá camisetas.
Se você é um estudante de graduação ou pós-graduação de Stanford, espero que venha e faça a aula. Venha construir o futuro da democracia conosco!

521
Top
Classificação
Favoritos
