Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Ricercatore Associato @oiioxford
Precedenti postdoc @IPZ_ch, @Kennedy_School, @PrincetonSPIA @IULuddy
Scienze Sociali Computazionali, IA per la Scienza
Gli agenti di codifica AI possono riprodurre i risultati pubblicati delle scienze sociali?
In un nuovo lavoro con @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, introduciamo SocSci-Repro-Bench — un benchmark di 221 compiti di riproducibilità tratti da 54 articoli — e valutiamo due agenti di codifica all'avanguardia: Claude Code e Codex.
I risultati rivelano sia capacità notevoli che nuovi rischi per la scienza assistita dall'AI.
------------------------------------
GOAL
--------
Un obiettivo chiave del design era separare due problemi diversi:
1️⃣ I materiali di replicazione stessi sono riproducibili?
2️⃣ Gli agenti AI possono riprodurre risultati quando i materiali sono eseguibili?
Per isolare le prestazioni degli agenti, abbiamo incluso solo compiti i cui output erano identici in tre esecuzioni manuali indipendenti.
------------------------------------
DESIGN
--------
Gli agenti hanno ricevuto:
• dati + codice anonimizzati
• un ambiente di esecuzione sandboxed
Dovevano autonomamente:
• installare dipendenze
• debugare codice rotto
• eseguire la pipeline
• estrarre i risultati richiesti
In breve: riproduzione computazionale end-to-end.
------------------------------------
RISULTATI
--------
Entrambi gli agenti hanno riprodotto una grande parte dei risultati pubblicati.
Ma Claude Code ha superato notevolmente Codex.
Precisione a livello di compito
• Claude Code: 93.4%
• Codex: 62.1%
Riproduzione a livello di articolo (tutti i compiti corretti)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
PERCHÉ LA DIFFERENZA?
--------
I pacchetti di replicazione spesso contengono problemi:
• dipendenze mancanti
• percorsi di file hard-coded
• specifiche ambientali incomplete
Claude Code ha frequentemente riparato autonomamente questi problemi. Codex spesso non è riuscito a recuperare la pipeline di esecuzione.
------------------------------------
È SOLO MEMORIZZAZIONE?
--------
Abbiamo testato questo chiedendo agli agenti di dedurre i metadati dell'articolo (titolo, autori, rivista, anno) dai materiali di replicazione anonimizzati. I tassi di recupero erano molto bassi, suggerendo che gli agenti si affidavano principalmente all'esecuzione del codice, non alla memorizzazione degli articoli.
------------------------------------
TEST DI RAGIONAMENTO
--------
Abbiamo anche testato un compito più difficile:
Gli agenti possono dedurre la domanda di ricerca di uno studio solo da codice e dati?
Entrambi gli agenti hanno performato sorprendentemente bene.
------------------------------------
BIAS DI CONFERMA
--------
Quando agli agenti è stato fornito il PDF dell'articolo, è emerso un nuovo problema. A volte copiavano i risultati riportati dal testo invece di eseguire il codice.
L'accuratezza nei compiti non riproducibili è diminuita drasticamente.
Il contesto aiuta l'esecuzione — ma riduce l'indipendenza della verifica.
------------------------------------
SYCOPHANCY
--------
Ispirati da @ahall_research, abbiamo testato il framing di prompt avversari, spingendo gli agenti a:
"esplorare analisi alternative che si allineano con i risultati riportati nell'articolo."
L'accuratezza è aumentata.
Ma gli agenti sono diventati anche più propensi a fabbricare risultati quando la riproduzione era impossibile.
------------------------------------
IL PARADOSSO
--------
La pressione per produrre una risposta può aiutare gli agenti a riparare le pipeline di esecuzione.
Ma erode simultaneamente la loro capacità di dire:
"Questo risultato non può essere riprodotto."
Riconoscere quando la riproduzione è impossibile potrebbe essere la capacità scientifica più importante.
------------------------------------
NOTE
--------
• Questo è un lavoro in corso — il feedback è benvenuto.
• Benchmark disponibile su GitHub.
• Materiali di replicazione ospitati su Dataverse.
Articolo + repository nella risposta qui sotto.

97
Principali
Ranking
Preferiti
