Kan AI-kodingsagenter gjenskape publiserte samfunnsvitenskapelige funn? I nytt arbeid med @_mohsen_m, Fabrizio Gilardi og @j_a_tucker introduserer vi SocSci-Repro-Bench — en referanse med 221 reproduserbarhetsoppgaver fra 54 artikler — og evaluerer to ledende kodingsagenter: Claude Code og Codex. Resultatene avslører både bemerkelsesverdige evner og nye risikoer for AI-assistert vitenskap. ------------------------------------ MÅL -------- Et sentralt designmål var å skille to forskjellige problemer: 1️⃣ Er replikasjonsmaterialene selv reproduserbare? 2️⃣ Kan AI-agenter gjenskape resultater når materialer er kjørbare? For å isolere agentens ytelse inkluderte vi kun oppgaver med identiske utdata på tvers av tre uavhengige manuelle utførelser. ------------------------------------ DESIGN -------- Agenter mottok: • anonymiserte data + kode • et sandkassebasert kjøringsmiljø De måtte autonomt: • installere avhengigheter • feilsøke ødelagt kode • kjøre pipelinen • hente ut de forespurte resultatene Kort sagt: ende-til-ende beregningsreproduksjon. ------------------------------------ RESULTATER...