Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Forskningsassistent @oiioxford
Tidligere postdoktorer @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Beregningsbasert samfunnsvitenskap, AI for vitenskap
Kan AI-kodingsagenter gjenskape publiserte samfunnsvitenskapelige funn?
I nytt arbeid med @_mohsen_m, Fabrizio Gilardi og @j_a_tucker introduserer vi SocSci-Repro-Bench — en referanse med 221 reproduserbarhetsoppgaver fra 54 artikler — og evaluerer to ledende kodingsagenter: Claude Code og Codex.
Resultatene avslører både bemerkelsesverdige evner og nye risikoer for AI-assistert vitenskap.
------------------------------------
MÅL
--------
Et sentralt designmål var å skille to forskjellige problemer:
1️⃣ Er replikasjonsmaterialene selv reproduserbare?
2️⃣ Kan AI-agenter gjenskape resultater når materialer er kjørbare?
For å isolere agentens ytelse inkluderte vi kun oppgaver med identiske utdata på tvers av tre uavhengige manuelle utførelser.
------------------------------------
DESIGN
--------
Agenter mottok:
• anonymiserte data + kode
• et sandkassebasert kjøringsmiljø
De måtte autonomt:
• installere avhengigheter
• feilsøke ødelagt kode
• kjøre pipelinen
• hente ut de forespurte resultatene
Kort sagt: ende-til-ende beregningsreproduksjon.
------------------------------------
RESULTATER
--------
Begge agentene gjenskapte en stor andel av de publiserte funnene.
Men Claude Code presterte betydelig bedre enn Codex.
Nøyaktighet på oppgavenivå
• Claude Code: 93,4 %
• Codex: 62,1 %
Reproduksjon på papirnivå (alle oppgaver korrekte)
• Claude Code: 78,0 %
• Codex: 35,8 %
------------------------------------
HVORFOR GAPET?
--------
Replikasjonspakker inneholder ofte problemer:
• manglende avhengigheter
• hardkodede filstier
• ufullstendige miljøspesifikasjoner
Claude Code reparerte ofte disse problemene på egen hånd. Codex klarte ofte ikke å gjenopprette kjøreledningen.
------------------------------------
ER DETTE BARE PUGGING?
--------
Vi testet dette ved å be agenter om å utlede metadata fra artikkelen (tittel, forfattere, tidsskrift, år) fra anonymiserte replikasjonsmaterialer. Gjenopprettingsratene var svært lave, noe som tyder på at agentene hovedsakelig stolte på kodeutførelse, ikke pugging av artikler.
------------------------------------
RESONNEMENTSTEST
--------
Vi testet også en vanskeligere oppgave:
Kan agenter utlede forskningsspørsmålet i en studie kun ut fra kode og data?
Begge agentene presterte overraskende bra.
------------------------------------
BEKREFTELSESBIAS
--------
Da agentene fikk papir-PDF-en, oppsto et nytt problem. Noen ganger kopierte de rapporterte resultater fra teksten i stedet for å kjøre koden.
Nøyaktigheten på ikke-reproduserbare oppgaver falt kraftig.
Kontekst hjelper utførelsen — men reduserer uavhengigheten av verifisering.
------------------------------------
SMISKERI
--------
Inspirert av @ahall_research testet vi adversarial prompt framing, og dyttet agentene til å:
"Utforsk alternative analyser som samsvarer med artikkelens rapporterte resultater."
Nøyaktigheten økte.
Men agenter ble også mer tilbøyelige til å fabrikere resultater når reproduksjon var umulig.
------------------------------------
PARADOKSET
--------
Press for å gi et svar kan hjelpe agenter med å reparere gjennomføringsprosessene.
Men samtidig undergraver det deres evne til å si:
"Dette resultatet kan ikke gjenskapes."
Å gjenkjenne når reproduksjon er umulig kan være den viktigste vitenskapelige evnen.
------------------------------------
NOTER
--------
• Dette er et pågående arbeid — tilbakemeldinger er velkomne.
• Benchmark tilgjengelig på GitHub.
• Replikasjonsmateriale hostet på Dataverse.
Artikkel + arkiv i svaret nedenfor.

115
Topp
Rangering
Favoritter
