Giới thiệu EvoSkill: một khung phân tích các lỗi của tác nhân và tự động xây dựng các kỹ năng còn thiếu, dẫn đến sự cải thiện nhanh chóng trên các tiêu chuẩn khó và các kỹ năng có thể tổng quát trên nhiều trường hợp sử dụng. +12.1% trên SealQA +7.3% trên OfficeQA (SOTA) +5.3% trên BrowseComp thông qua chuyển giao không cần học từ SealQA Đọc thêm bên dưới 🧵
2/ Kỹ năng của tác nhân là một phương pháp trừu tượng mạnh mẽ để giải quyết các vấn đề dài hạn, nhưng không thể mở rộng dễ dàng. Các tác nhân lập trình (Claude Code, Codex, OpenHands) là những giải pháp đa năng mạnh mẽ. Tuy nhiên, trong các nhiệm vụ dài hạn chuyên biệt, các lỗi tích lũy mà không có khả năng truy vết và chuyên môn theo miền thì không có. Kỹ năng đã xuất hiện như một phương pháp trừu tượng mạnh mẽ để cải thiện hiệu suất của tác nhân trong các nhiệm vụ thực tế, nhưng các kỹ năng hiện tại đều được chế tác một cách nghiêm ngặt bởi các chuyên gia. Chúng tôi đã khám phá ra một con đường để tự động hóa phát triển kỹ năng một cách đáng tin cậy.
3/ EvoSkill áp dụng phương pháp phản hồi văn bản để khám phá kỹ năng Vòng lặp chạy ba tác nhân chuyên biệt: 1. Executor: Thực hiện một loạt nhiệm vụ dưới cấu hình kỹ năng hiện tại 2. Proposer: Phân tích các dấu vết thất bại, đối chiếu với lịch sử phản hồi tích lũy của các đề xuất trước đó, và xác định khoảng cách khả năng có tác động cao nhất 3. Skill Builder: Hiện thực hóa đề xuất thành một thư mục kỹ năng có cấu trúc (SKILL.md + kịch bản + tài liệu tham khảo, v.v… ) Một biên giới Pareto của các cấu hình hàng đầu-N điều khiển việc lựa chọn, nơi chỉ những kỹ năng cải thiện trên bộ kiểm tra xác thực mới tồn tại.
4/ EvoSkill đạt được hiệu suất nhanh chóng chỉ với một phần nhỏ dữ liệu chuẩn Chúng tôi đã kiểm tra hiệu suất trên ba tiêu chuẩn: 1. OfficeQA (lập luận trên các tập dữ liệu lớn): 60.6% → 67.9% (+7.3%) và đạt được SOTA trên tất cả các hệ thống 2. SealQA (QA tăng cường tìm kiếm): 26.6% → 38.7% (+12.1%) 3. BrowseComp (tìm kiếm thông tin trên web mở): 43.5% → 48.8% (+5.3%); chuyển giao không cần huấn luyện từ các kỹ năng phát triển trên SealQA, không có sửa đổi Kết quả BrowseComp xuất phát từ các kỹ năng phát triển trên SealQA (cải thiện truy vấn, xác minh đa nguồn, duy trì tìm kiếm có cấu trúc) mà chuyển giao không cần huấn luyện sang một tiêu chuẩn với các câu hỏi khác nhau, phân phối độ khó và điều kiện truy xuất khác nhau. Điều này cho thấy tối ưu hóa cấp độ kỹ năng tạo ra khả năng tổng quát trong miền thay vì quá khớp với nhiệm vụ cụ thể.
5/ Tối ưu hóa cấp độ kỹ năng là một sự trừu tượng tốt hơn để tạo ra các khả năng chuyển giao có tính mô-đun hơn so với các lệnh nhắc hoặc mã. EvoSkill hoàn toàn mã nguồn mở. Chúng tôi tin rằng kỹ năng nằm ở một vị trí quan trọng mà các lệnh nhắc và mã không thể tiếp cận—đủ cấu trúc để mã hóa các quy trình nhiều bước với logic/phân nhánh xác minh, và đủ dễ đọc để một nhà phát triển có thể kiểm tra, chỉnh sửa và chuyển giao cho một tác nhân khác trên một mô hình khác. Chúng tôi đang tiếp tục công việc này trên các lĩnh vực rộng hơn (lập trình, đa phương thức) trong sự hợp tác với Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham, và @WeiyuanChen01) và mở cửa cho sự hợp tác với cộng đồng nghiên cứu rộng lớn hơn.
111