熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
介紹 EvoSkill:一個分析代理失敗並自動建立缺失技能的框架,從而在困難基準上快速改進並在各種用例中實現可泛化技能。
在 SealQA 上提升 +12.1%
在 OfficeQA 上提升 +7.3%(SOTA)
通過從 SealQA 的零樣本轉移在 BrowseComp 上提升 +5.3%
在下面閱讀更多內容 🧵

2/ 代理技能是一種強大的抽象方法,用於解決長期問題,但無法輕易擴展。
編碼代理(Claude Code、Codex、OpenHands)是強大的通用解決方案。然而,在專門的長期任務中,錯誤會無法追溯地累積,並且缺乏領域專業知識。
技能已經成為提高代理在現實世界任務中表現的強大抽象方法,但當今的技能是由專家精心製作的。
我們已經發現了一條可靠自動化技能開發的途徑。
3/ EvoSkill 應用文本反饋下降法來發現技能
該循環運行三個專門的代理:
1. 執行者:在當前技能配置下嘗試一批任務
2. 提議者:分析失敗的痕跡,交叉參考先前提議的累積反饋歷史,並識別影響最大的能力差距
3. 技能建構者:將提議具體化為結構化的技能文件夾 (SKILL.md + 腳本 + 參考資料等… )
一個前沿的 Pareto 最佳配置決定選擇,只有在測試集驗證中有所改善的技能才能存活。

4/ EvoSkill 只使用基準數據的一小部分就實現了快速性能
我們在三個基準上測試了性能:
1. OfficeQA(對大型語料庫的推理):60.6% → 67.9% (+7.3%),並在所有系統中達到 SOTA
2. SealQA(搜索增強的 QA):26.6% → 38.7% (+12.1%)
3. BrowseComp(開放網絡事實尋找):43.5% → 48.8% (+5.3%);從 SealQA 演變的技能進行零-shot 轉移,無需修改
BrowseComp 的結果源於在 SealQA 上演變的技能(查詢重構、多來源驗證、結構化搜索持久性),這些技能可以零-shot 轉移到具有不同問題、難度分佈和檢索條件的基準上。這表明技能級別的優化產生了領域通用的能力,而不是特定任務的過擬合。

5/ 技能水平優化是一種更好的抽象,能夠產生可轉移的能力,比提示或代碼更具模組化
EvoSkill 是完全開源的。我們相信技能位於一個關鍵的位置,提示和代碼無法觸及——結構足夠以編碼多步驟程序,並具備分支邏輯/驗證,且可讀性足夠讓開發者能夠檢查、編輯並傳遞給不同模型的其他代理。
我們正在與維吉尼亞理工大學(@tuvllms, @noahpro99, Jaydon Bingham 和 @WeiyuanChen01)合作,繼續在更廣泛的領域(編碼、多模態)進行這項工作,並對與更廣泛的研究社群合作持開放態度。
115
熱門
排行
收藏
