Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bisakah agen pengkodean AI mereproduksi temuan ilmu sosial yang diterbitkan?
Dalam pekerjaan baru dengan @_mohsen_m, Fabrizio Gilardi, dan @j_a_tucker, kami memperkenalkan SocSci-Repro-Bench — tolok ukur dari 221 tugas reproduktifitas dari 54 makalah — dan mengevaluasi dua agen pengkodean perbatasan: Claude Code dan Codex.
Hasilnya mengungkapkan kemampuan luar biasa dan risiko baru untuk sains yang dibantu AI.
------------------------------------
TUJUAN
--------
Tujuan desain utama adalah memisahkan dua masalah berbeda:
1️⃣ Apakah bahan replikasi itu sendiri dapat direproduksi?
2️⃣ Bisakah agen AI mereproduksi hasil ketika materi dapat dieksekusi?
Untuk mengisolasi performa agen, kami hanya menyertakan tugas yang outputnya identik di tiga eksekusi manual independen.
------------------------------------
DESAIN
--------
Agen menerima:
• data + kode anonim
• lingkungan eksekusi kotak pasir
Mereka harus secara mandiri:
• menginstal dependensi
• men-debug kode rusak
• Eksekusi alur
• Ekstrak hasil yang diminta
Singkatnya: reproduksi komputasi end-to-end.
------------------------------------
HASIL...

Teratas
Peringkat
Favorit
