DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Andy Hall

Prof @ Stanford GSB, Hoover. Lavoro su tecnologia, politica e governance. Consulente presso a16z crypto e Meta.

Interessante che il codice di Claude funzioni meglio di Codex in questo esercizio. Abbiamo riscontrato che sono abbastanza simili, ma i nostri compiti sono piuttosto diversi! @xuyiqing hai fatto dei confronti tra i due nel tuo lavoro di replicazione?

Gli agenti di codifica AI possono riprodurre i risultati pubblicati delle scienze sociali? In un nuovo lavoro con @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, introduciamo SocSci-Repro-Bench — un benchmark di 221 compiti di riproducibilità tratti da 54 articoli — e valutiamo due agenti di codifica all'avanguardia: Claude Code e Codex. I risultati rivelano sia capacità notevoli che nuovi rischi per la scienza assistita dall'AI. ------------------------------------ GOAL -------- Un obiettivo chiave del design era separare due problemi diversi: 1️⃣ I materiali di replicazione stessi sono riproducibili? 2️⃣ Gli agenti AI possono riprodurre risultati quando i materiali sono eseguibili? Per isolare le prestazioni degli agenti, abbiamo incluso solo compiti i cui output erano identici in tre esecuzioni manuali indipendenti. ------------------------------------ DESIGN -------- Gli agenti hanno ricevuto: • dati + codice anonimizzati • un ambiente di esecuzione sandboxed Dovevano autonomamente: • installare dipendenze • debugare codice rotto • eseguire la pipeline • estrarre i risultati richiesti In breve: riproduzione computazionale end-to-end. ------------------------------------ RISULTATI -------- Entrambi gli agenti hanno riprodotto una grande parte dei risultati pubblicati. Ma Claude Code ha superato notevolmente Codex. Precisione a livello di compito • Claude Code: 93.4% • Codex: 62.1% Riproduzione a livello di articolo (tutti i compiti corretti) • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ PERCHÉ LA DIFFERENZA? -------- I pacchetti di replicazione spesso contengono problemi: • dipendenze mancanti • percorsi di file hard-coded • specifiche ambientali incomplete Claude Code ha frequentemente riparato autonomamente questi problemi. Codex spesso non è riuscito a recuperare la pipeline di esecuzione. ------------------------------------ È SOLO MEMORIZZAZIONE? -------- Abbiamo testato questo chiedendo agli agenti di dedurre i metadati dell'articolo (titolo, autori, rivista, anno) dai materiali di replicazione anonimizzati. I tassi di recupero erano molto bassi, suggerendo che gli agenti si affidavano principalmente all'esecuzione del codice, non alla memorizzazione degli articoli. ------------------------------------ TEST DI RAGIONAMENTO -------- Abbiamo anche testato un compito più difficile: Gli agenti possono dedurre la domanda di ricerca di uno studio solo da codice e dati? Entrambi gli agenti hanno performato sorprendentemente bene. ------------------------------------ BIAS DI CONFERMA -------- Quando agli agenti è stato fornito il PDF dell'articolo, è emerso un nuovo problema. A volte copiavano i risultati riportati dal testo invece di eseguire il codice. L'accuratezza nei compiti non riproducibili è diminuita drasticamente. Il contesto aiuta l'esecuzione — ma riduce l'indipendenza della verifica. ------------------------------------ SYCOPHANCY -------- Ispirati da @ahall_research, abbiamo testato il framing di prompt avversari, spingendo gli agenti a: "esplorare analisi alternative che si allineano con i risultati riportati nell'articolo." L'accuratezza è aumentata. Ma gli agenti sono diventati anche più propensi a fabbricare risultati quando la riproduzione era impossibile. ------------------------------------ IL PARADOSSO -------- La pressione per produrre una risposta può aiutare gli agenti a riparare le pipeline di esecuzione. Ma erode simultaneamente la loro capacità di dire: "Questo risultato non può essere riprodotto." Riconoscere quando la riproduzione è impossibile potrebbe essere la capacità scientifica più importante. ------------------------------------ NOTE -------- • Questo è un lavoro in corso — il feedback è benvenuto. • Benchmark disponibile su GitHub. • Materiali di replicazione ospitati su Dataverse. Articolo + repository nella risposta qui sotto.

Principali

Ranking

Preferiti