Bisakah agen pengkodean AI mereproduksi temuan ilmu sosial yang diterbitkan? Dalam pekerjaan baru dengan @_mohsen_m, Fabrizio Gilardi, dan @j_a_tucker, kami memperkenalkan SocSci-Repro-Bench — tolok ukur dari 221 tugas reproduktifitas dari 54 makalah — dan mengevaluasi dua agen pengkodean perbatasan: Claude Code dan Codex. Hasilnya mengungkapkan kemampuan luar biasa dan risiko baru untuk sains yang dibantu AI. ------------------------------------ TUJUAN -------- Tujuan desain utama adalah memisahkan dua masalah berbeda: 1️⃣ Apakah bahan replikasi itu sendiri dapat direproduksi? 2️⃣ Bisakah agen AI mereproduksi hasil ketika materi dapat dieksekusi? Untuk mengisolasi performa agen, kami hanya menyertakan tugas yang outputnya identik di tiga eksekusi manual independen. ------------------------------------ DESAIN -------- Agen menerima: • data + kode anonim • lingkungan eksekusi kotak pasir Mereka harus secara mandiri: • menginstal dependensi • men-debug kode rusak • Eksekusi alur • Ekstrak hasil yang diminta Singkatnya: reproduksi komputasi end-to-end. ------------------------------------ HASIL...