AI 編碼代理能否重現已發表的社會科學研究結果? 在與 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我們介紹了 SocSci-Repro-Bench — 一個包含 54 篇論文的 221 個可重現性任務的基準,並評估了兩個前沿編碼代理:Claude Code 和 Codex。 結果顯示,AI 輔助科學既有顯著的能力,也帶來了新的風險。 ------------------------------------ GOAL -------- 一個關鍵的設計目標是區分兩個不同的問題: 1️⃣ 複製材料本身是否可重現? 2️⃣ 當材料可執行時,AI 代理能否重現結果? 為了隔離代理的表現,我們僅包括在三次獨立手動執行中輸出相同的任務。 ------------------------------------ DESIGN -------- 代理接收: • 匿名數據 + 代碼 • 一個沙盒執行環境 他們必須自主: • 安裝依賴項 • 調試損壞的代碼 • 執行管道 • 提取請求的結果 簡而言之:端到端的計算重現。 ------------------------------------ RESULTS...