熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
AI 編碼代理能否重現已發表的社會科學研究結果?
在與 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我們介紹了 SocSci-Repro-Bench — 一個包含 54 篇論文的 221 個可重現性任務的基準,並評估了兩個前沿編碼代理:Claude Code 和 Codex。
結果顯示,AI 輔助科學既有顯著的能力,也帶來了新的風險。
------------------------------------
GOAL
--------
一個關鍵的設計目標是區分兩個不同的問題:
1️⃣ 複製材料本身是否可重現?
2️⃣ 當材料可執行時,AI 代理能否重現結果?
為了隔離代理的表現,我們僅包括在三次獨立手動執行中輸出相同的任務。
------------------------------------
DESIGN
--------
代理接收:
• 匿名數據 + 代碼
• 一個沙盒執行環境
他們必須自主:
• 安裝依賴項
• 調試損壞的代碼
• 執行管道
• 提取請求的結果
簡而言之:端到端的計算重現。
------------------------------------
RESULTS...

熱門
排行
收藏
