Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Người sáng lập @getoutbox_ai
Tìm hiểu cách xây dựng AI Agent MIỄN PHÍ 👉 https://t.co/q9zPwlldZ4
MIT vừa công bố một bài báo giải thích một cách âm thầm lý do tại sao lý luận của LLM gặp phải bế tắc và cách để vượt qua nó.
Câu chuyện thường thấy là các mô hình thất bại trong các vấn đề khó khăn vì chúng thiếu quy mô, dữ liệu hoặc trí thông minh.
Bài báo này lập luận một điều gì đó mang tính cấu trúc hơn: các mô hình ngừng cải thiện vì tín hiệu học tập biến mất. Khi một nhiệm vụ trở nên quá khó, tỷ lệ thành công sụp đổ về gần bằng không, học tăng cường không có gì để tối ưu hóa, và lý luận bị đình trệ. Sự thất bại không phải là nhận thức, mà là giáo dục.
Các tác giả đề xuất một cách tiếp cận đơn giản nhưng mang tính cách mạng. Thay vì hỏi làm thế nào để các mô hình giải quyết các vấn đề khó hơn, họ hỏi làm thế nào các mô hình có thể tạo ra các vấn đề dạy chúng.
Hệ thống của họ, SOAR, chia một mô hình đã được huấn luyện trước thành hai vai trò: một sinh viên cố gắng thực hiện các nhiệm vụ mục tiêu cực kỳ khó, và một giáo viên tạo ra các vấn đề huấn luyện mới. Điểm mấu chốt là giáo viên không được thưởng cho việc tạo ra các câu hỏi thông minh hoặc thực tế. Nó chỉ được thưởng nếu hiệu suất của sinh viên cải thiện trên một tập hợp các vấn đề đánh giá thực tế cố định. Không có sự cải thiện có nghĩa là không có phần thưởng.
Sự khuyến khích đó định hình lại mọi thứ.
Giáo viên học cách tạo ra các vấn đề trung gian, các bước đệm nằm ngay bên trong ranh giới khả năng hiện tại của sinh viên. Những vấn đề này không phải là các phiên bản đơn giản hóa của nhiệm vụ mục tiêu, và đáng chú ý, chúng thậm chí không yêu cầu các giải pháp đúng.
Điều quan trọng là cấu trúc của chúng buộc sinh viên phải thực hành loại lý luận đúng, cho phép tín hiệu gradient xuất hiện ngay cả khi giám sát trực tiếp thất bại.
Các kết quả thử nghiệm làm rõ vấn đề một cách đau đớn. Trên các tiêu chuẩn mà các mô hình bắt đầu với tỷ lệ thành công bằng không và học tăng cường tiêu chuẩn hoàn toàn phẳng, SOAR phá vỡ bế tắc và cải thiện hiệu suất một cách ổn định.
Mô hình thoát khỏi rìa khả năng học tập không phải bằng cách suy nghĩ khó hơn, mà bằng cách xây dựng một môi trường học tập tốt hơn cho chính nó.
Ý nghĩa sâu xa hơn là không thoải mái. Nhiều "giới hạn lý luận" được cho là có thể không phải là giới hạn của trí thông minh. Chúng là sản phẩm của các thiết lập huấn luyện giả định rằng thế giới cung cấp các vấn đề có thể học được miễn phí.
Bài báo này gợi ý rằng nếu các mô hình có thể định hình chương trình giảng dạy của riêng mình, các cao nguyên lý luận trở thành các vấn đề kỹ thuật, không phải là rào cản cơ bản.
Không cần kiến trúc mới, không cần dữ liệu con người bổ sung, không cần mô hình lớn hơn. Chỉ cần một sự thay đổi trong những gì chúng ta thưởng: tiến bộ học tập thay vì câu trả lời.

31
Chúa ơi... Bài báo này giải thích một cách âm thầm lý do tại sao hầu hết các mô hình "lập luận" sụp đổ ngay khi bạn ngắt kết nối chúng khỏi các tiêu chuẩn sạch và thả chúng vào thế giới thực.
Nhóm LongCat giải quyết một câu hỏi mà lĩnh vực này luôn lảng tránh: nếu các mô hình ngày nay giỏi lập luận đến vậy, tại sao chúng vẫn thất bại trong hành vi cơ bản của tác nhân khi công cụ hỏng, hướng dẫn trở nên mơ hồ, hoặc môi trường phản kháng?
Câu trả lời của họ thật khó chịu. Lập luận không thất bại vì chuỗi suy nghĩ quá ngắn. Nó thất bại vì chúng ta đã đào tạo tư duy mà không có hậu quả.
Bài báo giới thiệu LongCat-Flash-Thinking-2601, một mô hình Mixture-of-Experts với 560B tham số được xây dựng xung quanh một ý tưởng đơn giản nhưng cấp tiến: lập luận chỉ trở nên đáng tin cậy khi nó bị buộc phải hành động, quan sát thất bại và thích nghi trong các môi trường thực tế.
Thay vì coi lập luận như là tạo ra văn bản, họ định hình nó như một vòng lặp:
quan sát → lập kế hoạch → hành động → nhận phản hồi → sửa đổi.
Sự thay đổi đó lan tỏa khắp nơi. Dữ liệu không còn là các gợi ý tĩnh nữa. Đào tạo không còn là các quỹ đạo sạch. Đánh giá không còn là các câu trả lời đơn lẻ.
Một trong những đóng góp quan trọng nhất là mở rộng môi trường. Các tác giả tự động tạo ra hơn 10.000 môi trường có thể thực thi trên hơn 20 lĩnh vực, mỗi môi trường được gắn với các công cụ thực, cơ sở dữ liệu thực và nhiều con đường giải pháp hợp lệ. Độ khó tăng lên một cách cấu trúc, không phải bằng các mẹo gợi ý thông minh.
Điều quan trọng là, họ không làm sạch thế giới. Các lỗi công cụ, hướng dẫn mơ hồ, đầu ra một phần và phản hồi ồn ào được cố ý tiêm vào. Tiếng ồn không phải là một lỗi. Nó là chương trình giảng dạy.
Để giữ cho việc đào tạo ổn định ở quy mô này, họ mở rộng RL không đồng bộ (DORA) để xử lý các tương tác dài hạn, nhiều lượt với hàng chục nghìn môi trường đồng thời mà không bị sụp đổ.
Tại thời điểm suy diễn, họ giới thiệu Chế độ Suy nghĩ Nặng. Thay vì một chuỗi suy nghĩ dài, mô hình chạy các con đường lập luận song song và sau đó phản ánh qua chúng trước khi hành động. Điều này nhất quán vượt qua tính tự nhất quán trong các nhiệm vụ phức tạp, có tính tác nhân.
Các kết quả nói lên rất nhiều. Hiệu suất hàng đầu trong BrowseComp, τ²-Bench và VitaBench. Kết quả toán học, lập trình và tìm kiếm mạnh mẽ. Và quan trọng nhất, giảm thiểu sự suy giảm dưới các điều kiện ồn ào.
Điều thực sự rút ra sắc nét hơn bất kỳ con số tiêu chuẩn nào:
Chất lượng lập luận không còn là nút thắt cổ chai.
Sự tổng quát mới là.
Và sự tổng quát không đến từ các gợi ý tốt hơn hay những suy nghĩ dài hơn. Nó đến từ các môi trường phản kháng.
Nếu chúng ta muốn các tác nhân hoạt động bên ngoài các buổi trình diễn, chúng ta phải ngừng đào tạo chúng trong những thế giới sạch sẽ, tưởng tượng. Trí tuệ không được hình thành nơi mọi thứ diễn ra suôn sẻ. Nó được hình thành nơi mọi thứ bị hỏng.
Bài báo: Báo cáo Kỹ thuật LongCat-Flash-Thinking-2601
Đọc toàn bộ bài báo tại:

52
Hàng đầu
Thứ hạng
Yêu thích

