Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MIT vừa công bố một bài báo giải thích một cách âm thầm lý do tại sao lý luận của LLM gặp phải bế tắc và cách để vượt qua nó.
Câu chuyện thường thấy là các mô hình thất bại trong các vấn đề khó khăn vì chúng thiếu quy mô, dữ liệu hoặc trí thông minh.
Bài báo này lập luận một điều gì đó mang tính cấu trúc hơn: các mô hình ngừng cải thiện vì tín hiệu học tập biến mất. Khi một nhiệm vụ trở nên quá khó, tỷ lệ thành công sụp đổ về gần bằng không, học tăng cường không có gì để tối ưu hóa, và lý luận bị đình trệ. Sự thất bại không phải là nhận thức, mà là giáo dục.
Các tác giả đề xuất một cách tiếp cận đơn giản nhưng mang tính cách mạng. Thay vì hỏi làm thế nào để các mô hình giải quyết các vấn đề khó hơn, họ hỏi làm thế nào các mô hình có thể tạo ra các vấn đề dạy chúng.
Hệ thống của họ, SOAR, chia một mô hình đã được huấn luyện trước thành hai vai trò: một sinh viên cố gắng thực hiện các nhiệm vụ mục tiêu cực kỳ khó, và một giáo viên tạo ra các vấn đề huấn luyện mới. Điểm mấu chốt là giáo viên không được thưởng cho việc tạo ra các câu hỏi thông minh hoặc thực tế. Nó chỉ được thưởng nếu hiệu suất của sinh viên cải thiện trên một tập hợp các vấn đề đánh giá thực tế cố định. Không có sự cải thiện có nghĩa là không có phần thưởng.
Sự khuyến khích đó định hình lại mọi thứ.
Giáo viên học cách tạo ra các vấn đề trung gian, các bước đệm nằm ngay bên trong ranh giới khả năng hiện tại của sinh viên. Những vấn đề này không phải là các phiên bản đơn giản hóa của nhiệm vụ mục tiêu, và đáng chú ý, chúng thậm chí không yêu cầu các giải pháp đúng.
Điều quan trọng là cấu trúc của chúng buộc sinh viên phải thực hành loại lý luận đúng, cho phép tín hiệu gradient xuất hiện ngay cả khi giám sát trực tiếp thất bại.
Các kết quả thử nghiệm làm rõ vấn đề một cách đau đớn. Trên các tiêu chuẩn mà các mô hình bắt đầu với tỷ lệ thành công bằng không và học tăng cường tiêu chuẩn hoàn toàn phẳng, SOAR phá vỡ bế tắc và cải thiện hiệu suất một cách ổn định.
Mô hình thoát khỏi rìa khả năng học tập không phải bằng cách suy nghĩ khó hơn, mà bằng cách xây dựng một môi trường học tập tốt hơn cho chính nó.
Ý nghĩa sâu xa hơn là không thoải mái. Nhiều "giới hạn lý luận" được cho là có thể không phải là giới hạn của trí thông minh. Chúng là sản phẩm của các thiết lập huấn luyện giả định rằng thế giới cung cấp các vấn đề có thể học được miễn phí.
Bài báo này gợi ý rằng nếu các mô hình có thể định hình chương trình giảng dạy của riêng mình, các cao nguyên lý luận trở thành các vấn đề kỹ thuật, không phải là rào cản cơ bản.
Không cần kiến trúc mới, không cần dữ liệu con người bổ sung, không cần mô hình lớn hơn. Chỉ cần một sự thay đổi trong những gì chúng ta thưởng: tiến bộ học tập thay vì câu trả lời.

Hàng đầu
Thứ hạng
Yêu thích
