Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pot agenții de codare AI să reproducă descoperirile publicate în științele sociale?
În lucrări noi cu @_mohsen_m, Fabrizio Gilardi și @j_a_tucker, introducem SocSci-Repro-Bench — un reper pentru 221 de sarcini de reproducibilitate din 54 de articole — și evaluăm doi agenți de codare de frontieră: Claude Code și Codex.
Rezultatele dezvăluie atât capabilități remarcabile, cât și noi riscuri pentru știința asistată de IA.
------------------------------------
OBIECTIV
--------
Un obiectiv cheie al designului a fost separarea a două probleme diferite:
1️⃣ Materialele de replicare sunt ele însele reproductibile?
2️⃣ Pot agenții AI să reproducă rezultate atunci când materialele sunt executabile?
Pentru a izola performanța agentului, am inclus doar sarcini ale căror ieșiri au fost identice în trei execuții manuale independente.
------------------------------------
DESIGN
--------
Agenții primiți:
• date anonimizate + cod
• un mediu de execuție sandboxed
Acestea trebuiau să fie autonome:
• instalarea dependențelor
• depanarea codului defect
• executarea conductei
• extragerea rezultatelor solicitate
Pe scurt: reproducere computațională end-to-end.
------------------------------------
REZULTATE...

Limită superioară
Clasament
Favorite
