Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Giáo sư @ Stanford GSB, Hoover. Tôi làm việc về công nghệ, chính trị và quản trị. Cố vấn tại tiền điện tử a16z và Meta.
Thú vị là mã của Claude hoạt động tốt hơn codex trong bài tập này. Chúng tôi thấy chúng khá tương tự nhưng các nhiệm vụ của chúng tôi thì khá khác nhau!
@xuyiqing bạn có thực hiện bất kỳ so sánh nào giữa hai cái này trong công việc tái tạo của bạn không?

Meysam Alizadeh16 giờ trước
Các tác nhân lập trình AI có thể tái tạo các phát hiện khoa học xã hội đã được công bố không?
Trong công việc mới với @_mohsen_m, Fabrizio Gilardi, và @j_a_tucker, chúng tôi giới thiệu SocSci-Repro-Bench — một tiêu chuẩn gồm 221 nhiệm vụ tái tạo từ 54 bài báo — và đánh giá hai tác nhân lập trình tiên tiến: Claude Code và Codex.
Kết quả cho thấy cả hai đều có khả năng đáng kể và những rủi ro mới cho khoa học hỗ trợ AI.
------------------------------------
GOAL
--------
Một mục tiêu thiết kế chính là tách biệt hai vấn đề khác nhau:
1️⃣ Tài liệu tái tạo có thể tái tạo được không?
2️⃣ Các tác nhân AI có thể tái tạo kết quả khi tài liệu có thể thực thi không?
Để cô lập hiệu suất của tác nhân, chúng tôi chỉ bao gồm các nhiệm vụ mà đầu ra giống hệt nhau qua ba lần thực hiện thủ công độc lập.
------------------------------------
DESIGN
--------
Các tác nhân nhận được:
• dữ liệu ẩn danh + mã
• một môi trường thực thi được cách ly
Họ phải tự động:
• cài đặt các phụ thuộc
• gỡ lỗi mã bị hỏng
• thực thi quy trình
• trích xuất các kết quả yêu cầu
Tóm lại: tái tạo tính toán từ đầu đến cuối.
------------------------------------
RESULTS
--------
Cả hai tác nhân đã tái tạo một phần lớn các phát hiện đã được công bố.
Nhưng Claude Code đã vượt trội hơn Codex một cách đáng kể.
Độ chính xác theo nhiệm vụ
• Claude Code: 93.4%
• Codex: 62.1%
Tái tạo theo bài báo (tất cả nhiệm vụ đều đúng)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
TẠI SAO CÓ SỰ CHÊNH LỆCH?
--------
Các gói tái tạo thường chứa các vấn đề:
• thiếu phụ thuộc
• đường dẫn tệp mã cứng
• thông số môi trường không đầy đủ
Claude Code thường tự động sửa chữa những vấn đề này. Codex thường không thể phục hồi quy trình thực thi.
------------------------------------
ĐÂY CHỈ LÀ NHỚ HAY KHÔNG?
--------
Chúng tôi đã kiểm tra điều này bằng cách yêu cầu các tác nhân suy luận siêu dữ liệu bài báo (tiêu đề, tác giả, tạp chí, năm) từ các tài liệu tái tạo ẩn danh. Tỷ lệ phục hồi rất thấp, cho thấy các tác nhân chủ yếu dựa vào việc thực thi mã, không phải ghi nhớ các bài báo.
------------------------------------
KIỂM TRA LÝ LUẬN
--------
Chúng tôi cũng đã kiểm tra một nhiệm vụ khó hơn:
Các tác nhân có thể suy luận câu hỏi nghiên cứu của một nghiên cứu chỉ từ mã và dữ liệu không?
Cả hai tác nhân đều thực hiện tốt một cách đáng ngạc nhiên.
------------------------------------
THIÊU KẾT QUYẾT ĐỊNH
--------
Khi các tác nhân được cung cấp PDF bài báo, một vấn đề mới xuất hiện. Đôi khi họ sao chép kết quả đã báo cáo từ văn bản thay vì thực thi mã.
Độ chính xác trên các nhiệm vụ không thể tái tạo giảm mạnh.
Ngữ cảnh giúp thực thi — nhưng giảm tính độc lập của việc xác minh.
------------------------------------
SYCOPHANCY
--------
Lấy cảm hứng từ @ahall_research, chúng tôi đã thử nghiệm khung thúc đẩy đối kháng, khiến các tác nhân:
“khám phá các phân tích thay thế phù hợp với các kết quả đã báo cáo của bài báo.”
Độ chính xác tăng lên.
Nhưng các tác nhân cũng trở nên có khả năng bịa đặt kết quả hơn khi việc tái tạo là không thể.
------------------------------------
NGHỊCH LÝ
--------
Áp lực để đưa ra câu trả lời có thể giúp các tác nhân sửa chữa các quy trình thực thi.
Nhưng đồng thời làm giảm khả năng của họ để nói:
“Kết quả này không thể được tái tạo.”
Nhận ra khi nào việc tái tạo là không thể có thể là khả năng khoa học quan trọng nhất.
------------------------------------
GHI CHÚ
--------
• Đây là công việc đang tiến hành — phản hồi là rất hoan nghênh.
• Tiêu chuẩn có sẵn trên GitHub.
• Tài liệu tái tạo được lưu trữ trên Dataverse.
Bài báo + kho lưu trữ trong phản hồi bên dưới.

81
Free Systems đang mở rộng.
Tôi đã thuê một nhóm 10+ nghiên cứu viên và chúng tôi đang xây dựng một phòng thí nghiệm hoàn toàn mới, được hỗ trợ bởi AI, sẽ cung cấp nghiên cứu, ý tưởng và nguyên mẫu kịp thời hơn nhằm bảo vệ tự do của con người trong một thế giới thuật toán.
Trong vài tuần tới, chúng tôi sẽ phát hành nghiên cứu về cách AI khuyến nghị mọi người bỏ phiếu ở Nhật Bản, về các thí nghiệm thành công của chúng tôi trong việc đặt cược ở các cuộc bầu cử sơ bộ Texas, về việc điều chỉnh các phương pháp dự đoán AI tiên tiến của Bridgewater để dự đoán địa chính trị, và nhiều hơn nữa.
Chúng tôi cũng sẽ tổ chức một cuộc thi hackathon Free Systems mà tôi rất hào hứng.
Khi chúng tôi xây dựng, chúng tôi không muốn mất đi những gì chúng tôi đã làm---mục tiêu là mỗi phần nghiên cứu đều đóng góp vào một quá trình tổng hợp, không bị bỏ lại trên mạng và rồi bị quên lãng mãi mãi.
Để đạt được điều đó, chúng tôi đang bắt đầu một bản tóm tắt vào thứ Sáu có tên "Kiểm tra Hệ thống" nơi chúng tôi cung cấp cập nhật về nghiên cứu hiện có của chúng tôi, cách nó liên quan đến các phát triển mới, và ý nghĩa của nó đối với việc xây dựng Free Systems.
Bản đầu tiên đã ra mắt hôm nay. Hãy cho tôi biết bạn nghĩ gì!

101
Học kỳ tới, tôi sẽ giảng dạy một khóa học đại học mới mang tính cách mạng, HỆ THỐNG MIỄN PHÍ, nhằm tái tưởng tượng lại nền dân chủ và cách chúng ta nghiên cứu và giảng dạy nó trong kỷ nguyên AI.
Sinh viên sẽ học về tương lai của AI và nền dân chủ, nhưng cũng sẽ *xây dựng nó*.
Mỗi sinh viên sẽ nhận được một tài khoản Claude Code và một khóa API OpenRouter được tài trợ cùng một chỉ thị chính: xây dựng các công cụ có thể giúp chúng ta bảo vệ tự do con người trong một thế giới ngày càng thuật toán hóa.
Chúng ta sẽ xây dựng các đại lý AI cá nhân xử lý tin tức chính trị, giao dịch trên các thị trường dự đoán chính trị, bỏ phiếu thay mặt chúng ta và thảo luận với các đại lý của sinh viên khác trong một cơ quan lập pháp đại lý... trong số nhiều điều khác.
Và sẽ có áo phông.
Nếu bạn là sinh viên đại học hoặc sau đại học của Stanford, tôi hy vọng bạn sẽ đến và tham gia lớp học. Hãy cùng xây dựng tương lai của nền dân chủ với chúng tôi!

520
Hàng đầu
Thứ hạng
Yêu thích
