Các tác nhân lập trình AI có thể tái tạo các phát hiện khoa học xã hội đã được công bố không? Trong công việc mới với @_mohsen_m, Fabrizio Gilardi, và @j_a_tucker, chúng tôi giới thiệu SocSci-Repro-Bench — một tiêu chuẩn gồm 221 nhiệm vụ tái tạo từ 54 bài báo — và đánh giá hai tác nhân lập trình tiên tiến: Claude Code và Codex. Kết quả cho thấy cả hai đều có khả năng đáng kể và những rủi ro mới cho khoa học hỗ trợ AI. ------------------------------------ GOAL -------- Một mục tiêu thiết kế chính là tách biệt hai vấn đề khác nhau: 1️⃣ Tài liệu tái tạo có thể tái tạo được không? 2️⃣ Các tác nhân AI có thể tái tạo kết quả khi tài liệu có thể thực thi không? Để cô lập hiệu suất của tác nhân, chúng tôi chỉ bao gồm các nhiệm vụ mà đầu ra giống hệt nhau qua ba lần thực hiện thủ công độc lập. ------------------------------------ DESIGN -------- Các tác nhân nhận được: • dữ liệu ẩn danh + mã • một môi trường thực thi được cách ly Họ phải tự động: • cài đặt các phụ thuộc • gỡ lỗi mã bị hỏng • thực thi quy trình • trích xuất các kết quả yêu cầu Tóm lại: tái tạo tính toán từ đầu đến cuối. ------------------------------------ RESULTS...