DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Pot agenții de codare AI să reproducă descoperirile publicate în științele sociale? În lucrări noi cu @_mohsen_m, Fabrizio Gilardi și @j_a_tucker, introducem SocSci-Repro-Bench — un reper pentru 221 de sarcini de reproducibilitate din 54 de articole — și evaluăm doi agenți de codare de frontieră: Claude Code și Codex. Rezultatele dezvăluie atât capabilități remarcabile, cât și noi riscuri pentru știința asistată de IA. ------------------------------------ OBIECTIV -------- Un obiectiv cheie al designului a fost separarea a două probleme diferite: 1️⃣ Materialele de replicare sunt ele însele reproductibile? 2️⃣ Pot agenții AI să reproducă rezultate atunci când materialele sunt executabile? Pentru a izola performanța agentului, am inclus doar sarcini ale căror ieșiri au fost identice în trei execuții manuale independente. ------------------------------------ DESIGN -------- Agenții primiți: • date anonimizate + cod • un mediu de execuție sandboxed Acestea trebuiau să fie autonome: • instalarea dependențelor • depanarea codului defect • executarea conductei • extragerea rezultatelor solicitate Pe scurt: reproducere computațională end-to-end. ------------------------------------ REZULTATE...

Limită superioară

Clasament

Favorite