Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kan AI-kodingsagenter gjenskape publiserte samfunnsvitenskapelige funn?
I nytt arbeid med @_mohsen_m, Fabrizio Gilardi og @j_a_tucker introduserer vi SocSci-Repro-Bench — en referanse med 221 reproduserbarhetsoppgaver fra 54 artikler — og evaluerer to ledende kodingsagenter: Claude Code og Codex.
Resultatene avslører både bemerkelsesverdige evner og nye risikoer for AI-assistert vitenskap.
------------------------------------
MÅL
--------
Et sentralt designmål var å skille to forskjellige problemer:
1️⃣ Er replikasjonsmaterialene selv reproduserbare?
2️⃣ Kan AI-agenter gjenskape resultater når materialer er kjørbare?
For å isolere agentens ytelse inkluderte vi kun oppgaver med identiske utdata på tvers av tre uavhengige manuelle utførelser.
------------------------------------
DESIGN
--------
Agenter mottok:
• anonymiserte data + kode
• et sandkassebasert kjøringsmiljø
De måtte autonomt:
• installere avhengigheter
• feilsøke ødelagt kode
• kjøre pipelinen
• hente ut de forespurte resultatene
Kort sagt: ende-til-ende beregningsreproduksjon.
------------------------------------
RESULTATER...

Topp
Rangering
Favoritter
