🚨TIN NÓNG: Alibaba đã thử nghiệm các tác nhân lập trình AI trên 100 mã nguồn thực, kéo dài 233 ngày mỗi mã. Các tác nhân đã thất bại một cách thảm hại. Hóa ra việc vượt qua các bài kiểm tra một lần là dễ dàng. Duy trì mã trong 8 tháng mà không làm hỏng mọi thứ mới là nơi AI sụp đổ. SWE-CI là tiêu chuẩn đầu tiên đo lường việc duy trì mã lâu dài thay vì chỉ sửa lỗi một lần. Mỗi nhiệm vụ theo dõi 71 cam kết liên tiếp của sự phát triển thực tế. 75% các mô hình AI làm hỏng mã đã hoạt động trước đó trong quá trình bảo trì. Chỉ có Claude Opus 4 giữ tỷ lệ không suy giảm trên 50%. Mọi mô hình khác tích lũy nợ kỹ thuật theo thời gian. Đây là phần tàn nhẫn: - HumanEval và SWE-bench đo lường "nó có hoạt động ngay bây giờ không" - SWE-CI đo lường "nó có vẫn hoạt động sau 6 tháng thay đổi không" Các tác nhân tối ưu hóa cho việc kiểm tra theo thời điểm viết mã dễ vỡ mà hôm nay vượt qua bài kiểm tra nhưng trở nên không thể bảo trì vào ngày mai. Alibaba đã xây dựng EvoScore để trọng số các lần lặp lại sau nặng hơn so với các lần đầu. Các tác nhân hy sinh chất lượng mã để đạt được thành công nhanh chóng sẽ bị trừng phạt khi hậu quả tích lũy. Câu chuyện về lập trình AI vừa trở nên trung thực hơn: hầu hết các mô hình có thể viết mã. Gần như không có mô hình nào có thể duy trì nó.