DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Andy Hall

Prof @ Stanford GSB, Hoover. Saya bekerja di bidang teknologi, politik, dan pemerintahan. Penasihat di a16z crypto dan Meta.

Menarik bahwa kode Claude berkinerja lebih baik daripada codex dalam latihan ini. Kami telah menemukan mereka kira-kira mirip, tetapi tugas kami sangat berbeda! @xuyiqing Anda melakukan perbandingan di keduanya dalam pekerjaan replikasi Anda?

Bisakah agen pengkodean AI mereproduksi temuan ilmu sosial yang diterbitkan? Dalam pekerjaan baru dengan @_mohsen_m, Fabrizio Gilardi, dan @j_a_tucker, kami memperkenalkan SocSci-Repro-Bench — tolok ukur dari 221 tugas reproduktifitas dari 54 makalah — dan mengevaluasi dua agen pengkodean perbatasan: Claude Code dan Codex. Hasilnya mengungkapkan kemampuan luar biasa dan risiko baru untuk sains yang dibantu AI. ------------------------------------ TUJUAN -------- Tujuan desain utama adalah memisahkan dua masalah berbeda: 1️⃣ Apakah bahan replikasi itu sendiri dapat direproduksi? 2️⃣ Bisakah agen AI mereproduksi hasil ketika materi dapat dieksekusi? Untuk mengisolasi performa agen, kami hanya menyertakan tugas yang outputnya identik di tiga eksekusi manual independen. ------------------------------------ DESAIN -------- Agen menerima: • data + kode anonim • lingkungan eksekusi kotak pasir Mereka harus secara mandiri: • menginstal dependensi • men-debug kode rusak • Eksekusi alur • Ekstrak hasil yang diminta Singkatnya: reproduksi komputasi end-to-end. ------------------------------------ HASIL -------- Kedua agen mereproduksi sebagian besar temuan yang diterbitkan. Tetapi Claude Code secara substansial mengungguli Codex. Akurasi tingkat tugas • Kode Claude: 93.4% • Codex: 62,1% Reproduksi tingkat kertas (semua tugas benar) • Kode Claude: 78.0% • Codex: 35,8% ------------------------------------ MENGAPA CENJANGAN? -------- Paket replikasi sering kali berisi masalah: • Dependensi yang hilang • Jalur file hard-code • spesifikasi lingkungan yang tidak lengkap Claude Code sering memperbaiki masalah ini secara mandiri. Codex sering gagal memulihkan alur eksekusi. ------------------------------------ APAKAH INI HANYA HAFALAN? -------- Kami mengujinya dengan meminta agen untuk menyimpulkan metadata kertas (judul, penulis, jurnal, tahun) dari materi replikasi anonim. Tingkat pemulihan sangat rendah, menunjukkan bahwa agen terutama mengandalkan eksekusi kode, bukan menghafal makalah. ------------------------------------ TES PENALARAN -------- Kami juga menguji tugas yang lebih sulit: Dapatkah agen menyimpulkan pertanyaan penelitian dari sebuah penelitian dari kode dan data saja? Kedua agen tersebut tampil sangat baik. ------------------------------------ BIAS KONFIRMASI -------- Ketika agen diberi PDF kertas, masalah baru muncul. Terkadang mereka menyalin hasil yang dilaporkan dari teks alih-alih mengeksekusi kode. Akurasi pada tugas yang tidak dapat direproduksi turun tajam. Konteks membantu eksekusi — tetapi mengurangi independensi verifikasi. ------------------------------------ PENSYPUAN -------- Terinspirasi oleh @ahall_research, kami menguji agen pembingkaian prompt musuh untuk: "Jelajahi analisis alternatif yang selaras dengan hasil makalah yang dilaporkan." Akurasi meningkat. Tetapi agen juga menjadi lebih mungkin untuk mengarang hasil ketika reproduksi tidak mungkin. ------------------------------------ PARADOKS -------- Tekanan untuk menghasilkan jawaban dapat membantu agen memperbaiki pipa eksekusi. Tetapi secara bersamaan mengikis kemampuan mereka untuk mengatakan: "Hasil ini tidak dapat direproduksi." Mengenali kapan reproduksi tidak mungkin menjadi kemampuan ilmiah yang paling penting. ------------------------------------ CATATAN -------- • Ini adalah pekerjaan yang sedang berlangsung — umpan balik dipersilakan. • Tolok ukur tersedia di GitHub. • Materi replikasi yang dihosting di Dataverse. Kertas + repositori dalam balasan di bawah ini.

Teratas

Peringkat

Favorit