Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Představujeme EvoSkill: framework, který analyzuje selhání agentů a automaticky vytváří chybějící dovednosti, což vede k rychlému zlepšení obtížných benchmarků a zobecnitelných dovedností napříč různými případy použití.
+12,1 % na SealQA
+7,3 % na OfficeQA (SOTA)
+5,3 % na BrowseComp přes zero-shot transfer ze SealQA
Více informací níže 🧵

2/ Agentní dovednosti jsou silnou abstrakcí pro řešení dlouhodobých problémů, ale nelze je snadno škálovat
Kódovací agenti (Claude Code, Codex, OpenHands) jsou výkonné univerzální řešiče. U specializovaných dlouhodobých úkolů se však chyby hromadí bez sledovatelnosti a chybí odbornost specifická pro danou oblast.
Dovednosti se staly silnou abstrakcí pro zlepšení výkonu agentů při skutečných úkolech, ale dnešní dovednosti jsou pečlivě ručně vytvářeny odborníky.
Objevili jsme cestu k spolehlivé automatizaci rozvoje dovedností.
3/ EvoSkill aplikuje textovou zpětnou vazbu sestup na objevování dovedností
Okruh provozuje tři specializované agenty:
1. Executor: Zkouší sérii úkolů v aktuální konfiguraci dovedností
2. Navrhovatel: Analyzuje neúspěšné stopy, porovnává kumulativní historii zpětné vazby předchozích návrhů a identifikuje mezeru ve schopnostech s největším dopadem
3. Skill Builder: Materializuje návrh do strukturované složky dovedností (SKILL.md + skripty + reference atd.)
Výběr řídí Pareto hranice konfigurace s nejvyšším N konfiguracemi, kde přežijí pouze dovednosti, které se zlepší v ověřování testovací množiny.

4/ EvoSkill dosahuje rychlého výkonu s využitím pouze zlomku dat z benchmarku
Testovali jsme výkon ve třech benchmarkech:
1. OfficeQA (uvažování nad velkými korpory): 60,6 % → 67,9 % (+7,3 %) a dosažení SOTA napříč všemi systémy
2. SealQA (QA rozšířené vyhledáváním): 26,6 % → 38,7 % (+12,1 %)
3. BrowseComp (vyhledávání faktů na otevřeném webu): 43,5 % → 48,8 % (+5,3 %); Přenos nulových výstřelů ze schopností vyvinutých SealQA, bez úprav
Výsledek BrowseComp vycházel ze dovedností vyvinutých na SealQA (reformulace dotazů, ověřování více zdrojů, perzistence strukturovaného vyhledávání), které přenášejí zero-shot do benchmarku s různými otázkami, rozložením obtížnosti a podmínkami vyhledávání. To naznačuje, že optimalizace na úrovni dovedností vytváří schopnosti zaměřené na dané dané oblasti, nikoli na konkrétní úkol.

5/ Optimalizace na úrovni dovedností je lepší abstrakce, která umožňuje vytvářet přenositelné schopnosti modulárnější než prompty nebo kód
EvoSkill je plně open-source. Věříme, že dovednosti jsou na kritickém místě, kam prompty a kód nedosáhnou – dostatečně strukturované, aby mohly kódovat vícestupňové postupy s větvenou logikou/ověřováním, a zároveň dostatečně čitelné, aby je vývojář mohl zkontrolovat, upravovat a předat jinému agentovi na jiném modelu.
V této práci pokračujeme napříč širšími oblastmi (kódování, multimodální programování) ve spolupráci s Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham a @WeiyuanChen01) a jsme otevřeni spolupráci s širší výzkumnou komunitou.
165
Top
Hodnocení
Oblíbené
