EvoSkillin esittely: viitekehys, joka analysoi agenttien epäonnistumisia ja rakentaa automaattisesti puuttuvat taidot, mikä johtaa nopeisiin parannuksiin vaikeissa vertailuarvoissa ja yleistettävissä taidoissa eri käyttötapauksissa. +12,1 % SealQA:ssa +7,3 % OfficeQA:ssa (SOTA) +5,3 % BrowseCompissa zero-shot-siirrolla SealQA:lta Lue lisää alta 🧵
2/ Agenttitaidot ovat voimakas abstraktio pitkän aikavälin ongelmien ratkaisemiseen, mutta niitä ei voi helposti skaalata Koodausagentit (Claude Code, Codex, OpenHands) ovat tehokkaita yleiskäyttöisiä ratkaisijoita. Kuitenkin erikoistuneissa pitkän aikavälin tehtävissä virheitä kasaantuu ilman jäljitettävyyttä, ja alakohtainen asiantuntemus puuttuu. Taidot ovat nousseet voimakkaaksi abstraktiomenetelmäksi agenttien suorituskyvyn parantamiseksi todellisissa tehtävissä, mutta nykyiset taidot on huolellisesti käsityön tehty asiantuntijoiden toimesta. Olemme löytäneet polun taitojen kehittämisen luotettavaan automatisointiin.
3/ EvoSkill soveltaa tekstuaalista palautteen laskeutumista taitojen löytämiseen Silmukassa on kolme erikoistunutta agenttia: 1. Executor: Yrittää tehdä tehtäviä nykyisellä taitokonfiguraatiolla 2. Ehdottaja: Analysoi epäonnistuneita jälkiä, ristiinviittaa aiempien ehdotusten kumulatiiviseen palautehistoriaan ja tunnistaa suurimman vaikutuskyvykkyyden aukon 3. Taitojen rakentaja: Materialisoi ehdotuksen jäsennellyksi taitokansioksi (SKILL.md + skriptit + lähteet jne.) Valintaa ohjaa Pareto-rajamaa top-N-konfiguraatioissa, joissa vain ne taidot, jotka parantavat testisarjan validointia.
4/ EvoSkill saavuttaa nopean suorituskyvyn käyttämällä vain murto-osaa vertailudatasta Testasimme suorituskykyä kolmella vertailutasolla: 1. OfficeQA (päättely suurten korporaatioiden yli): 60,6 % → 67,9 % (+7,3 %) ja SOTA:n saavuttaminen kaikissa järjestelmissä 2. SealQA (haun lisätty laadunvarmistus): 26,6 % → 38,7 % (+12,1 %) 3. BrowseComp (avoimen verkon faktanhaku): 43,5 % → 48,8 % (+5,3 %); nollalaukauksen siirto SealQA:n kehittyneistä taidoista, ei muutosta BrowseCompin tulos sai alkunsa SealQA:ssa kehittyneistä taidoista (kyselyjen uudelleenmuotoilu, monilähdevarmistus, strukturoitu haun pysyvyys), jotka siirtävät nollaotoksen vertailuarvoon, jossa on erilaiset kysymykset, vaikeustasojakauma ja hakuehdot. Tämä viittaa siihen, että taitotason optimointi tuottaa toimialakohtaisia kykyjä eikä tehtäväkohtaista ylisovitusta.
5/ Taitotason optimointi on parempi abstraktio siirrettävien ominaisuuksien tuottamiseksi, jotka ovat modulaarisempia kuin kehotteet tai koodi EvoSkill on täysin avoimen lähdekoodin. Uskomme, että taidot ovat kriittisessä kohdassa, johon kehotteet ja koodi eivät pääse – riittävän jäsenneltynä monivaiheisten proseduurien koodaamiseen haarautuvalla logiikalla/verifikaatiolla, ja tarpeeksi luettavissa, jotta kehittäjä voi tarkastaa, muokata ja välittää ne toiselle agentille eri mallilla. Jatkamme tätä työtä laajemmilla aloilla (koodaus, multimodaali) yhteistyössä Virginia Techin (@tuvllms, @noahpro99, Jaydon Bingham ja @WeiyuanChen01) kanssa ja olemme avoimia yhteistyölle laajemman tutkimusyhteisön kanssa.
93