一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

AI 編碼代理能否重現已發表的社會科學研究結果？在與 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中，我們介紹了 SocSci-Repro-Bench — 一個包含 54 篇論文的 221 個可重現性任務的基準，並評估了兩個前沿編碼代理：Claude Code 和 Codex。結果顯示，AI 輔助科學既有顯著的能力，也帶來了新的風險。 ------------------------------------ GOAL -------- 一個關鍵的設計目標是區分兩個不同的問題： 1️⃣ 複製材料本身是否可重現？ 2️⃣ 當材料可執行時，AI 代理能否重現結果？為了隔離代理的表現，我們僅包括在三次獨立手動執行中輸出相同的任務。 ------------------------------------ DESIGN -------- 代理接收： • 匿名數據 + 代碼 • 一個沙盒執行環境他們必須自主： • 安裝依賴項 • 調試損壞的代碼 • 執行管道 • 提取請求的結果簡而言之：端到端的計算重現。 ------------------------------------ RESULTS...