一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

介紹 EvoSkill：一個分析代理失敗並自動建立缺失技能的框架，從而在困難基準上快速改進並在各種用例中實現可泛化技能。在 SealQA 上提升 +12.1% 在 OfficeQA 上提升 +7.3%（SOTA）通過從 SealQA 的零樣本轉移在 BrowseComp 上提升 +5.3% 在下面閱讀更多內容 🧵

2/ 代理技能是一種強大的抽象方法，用於解決長期問題，但無法輕易擴展。編碼代理（Claude Code、Codex、OpenHands）是強大的通用解決方案。然而，在專門的長期任務中，錯誤會無法追溯地累積，並且缺乏領域專業知識。技能已經成為提高代理在現實世界任務中表現的強大抽象方法，但當今的技能是由專家精心製作的。我們已經發現了一條可靠自動化技能開發的途徑。

3/ EvoSkill 應用文本反饋下降法來發現技能該循環運行三個專門的代理： 1. 執行者：在當前技能配置下嘗試一批任務 2. 提議者：分析失敗的痕跡，交叉參考先前提議的累積反饋歷史，並識別影響最大的能力差距 3. 技能建構者：將提議具體化為結構化的技能文件夾 (SKILL.md + 腳本 + 參考資料等… ) 一個前沿的 Pareto 最佳配置決定選擇，只有在測試集驗證中有所改善的技能才能存活。

4/ EvoSkill 只使用基準數據的一小部分就實現了快速性能我們在三個基準上測試了性能： 1. OfficeQA（對大型語料庫的推理）：60.6% → 67.9% (+7.3%)，並在所有系統中達到 SOTA 2. SealQA（搜索增強的 QA）：26.6% → 38.7% (+12.1%) 3. BrowseComp（開放網絡事實尋找）：43.5% → 48.8% (+5.3%)；從 SealQA 演變的技能進行零-shot 轉移，無需修改 BrowseComp 的結果源於在 SealQA 上演變的技能（查詢重構、多來源驗證、結構化搜索持久性），這些技能可以零-shot 轉移到具有不同問題、難度分佈和檢索條件的基準上。這表明技能級別的優化產生了領域通用的能力，而不是特定任務的過擬合。

5/ 技能水平優化是一種更好的抽象，能夠產生可轉移的能力，比提示或代碼更具模組化 EvoSkill 是完全開源的。我們相信技能位於一個關鍵的位置，提示和代碼無法觸及——結構足夠以編碼多步驟程序，並具備分支邏輯/驗證，且可讀性足夠讓開發者能夠檢查、編輯並傳遞給不同模型的其他代理。我們正在與維吉尼亞理工大學（@tuvllms, @noahpro99, Jaydon Bingham 和 @WeiyuanChen01）合作，繼續在更廣泛的領域（編碼、多模態）進行這項工作，並對與更廣泛的研究社群合作持開放態度。

115