Introduktion av EvoSkill: ett ramverk som analyserar agenters fel och automatiskt bygger upp de saknade färdigheterna, vilket leder till snabb förbättring av svåra riktmärken och generaliserbara färdigheter över användningsområden. +12,1 % på SealQA +7,3 % på OfficeQA (SOTA) +5,3 % på BrowseComp via zero-shot-överföring från SealQA Läs mer nedan 🧵
2/ Agentfärdigheter är en kraftfull abstraktion för att lösa långhorisontiga problem, men kan inte skalas lätt Kodagenter (Claude Code, Codex, OpenHands) är kraftfulla allmänna lösare. Men vid specialiserade långsiktiga uppgifter hopar sig felen utan spårbarhet och den domänspecifika expertisen saknas. Färdigheter har framträtt som en kraftfull abstraktionsmetod för att förbättra agenters prestation på verkliga uppgifter, men dagens färdigheter är noggrant handgjorda av experter. Vi har upptäckt en väg till att pålitligt automatisera kompetensutveckling.
3/ EvoSkill tillämpar textuell återkopplingsnedstigning för färdighetsupptäckt Loopen kör tre specialiserade agenter: 1. Exekutör: Försöker en batch av uppgifter under den aktuella färdighetskonfigurationen 2. Förslagsställare: Analyserar misslyckade spår, korsrefererar en kumulativ återkopplingshistorik från tidigare förslag och identifierar den kapacitetslucka med störst påverkan 3. Skill Builder: Materialiserar förslaget i en strukturerad färdighetsmapp (SKILL.md + skript + referenser, etc...) En Pareto-gräns av top-N-konfigurationer styr urvalet, där endast de färdigheter som förbättrar testsetvalideringen överlever.
4/ EvoSkill uppnår snabb prestanda med endast en bråkdel av benchmarkdatan Vi testade prestanda över tre riktmärken: 1. OfficeQA (resonemang över stora korpora): 60,6 % → 67,9 % (+7,3 %) och uppnådde SOTA över alla system 2. SealQA (sökförstärkt QA): 26,6 % → 38,7 % (+12,1 %) 3. BrowseComp (öppen webbfaktasökning): 43,5 % → 48,8 % (+5,3 %); noll-skottöverföring från SealQA-utvecklade färdigheter, ingen modifiering BrowseComp-resultatet härstammar från färdigheter utvecklade på SealQA (frågeformulering, multikällverifiering, strukturerad sökpersistens) som överför zero-shot till en benchmark med olika frågor, svårighetsfördelning och återvinningsvillkor. Detta tyder på att optimering av färdighetsnivå ger domängenerella förmågor snarare än uppgiftsspecifik överanpassning.
5/ Optimering på färdighetsnivå är bättre abstraktion för att skapa överförbara funktioner som är mer modulära än prompts eller kod EvoSkill är helt öppen källkod. Vi anser att färdigheter befinner sig på en kritisk plats som prompts och kod inte kan nå—tillräckligt strukturerade för att koda flerstegsprocedurer med förkantad logik/verifiering, och tillräckligt läsbara för att en utvecklare ska kunna inspektera, redigera och vidarebefordra till en annan agent på en annan modell. Vi fortsätter detta arbete inom bredare områden (kodning, multimodal) i samarbete med Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham och @WeiyuanChen01) och är öppna för samarbete med det bredare forskarsamhället.
114