Vi introduserer EvoSkill: et rammeverk som analyserer agentfeil og automatisk bygger opp manglende ferdigheter, noe som fører til rask forbedring på vanskelige benchmarks og generaliserbare ferdigheter på tvers av brukstilfeller. +12,1 % på SealQA +7,3 % på OfficeQA (SOTA) +5,3 % på BrowseComp via null-skudd-overføring fra SealQA Les mer nedenfor 🧵
2/ Agentferdigheter er en kraftig abstraksjon for å løse problemer med lang horisont, men kan ikke skaleres lett Kode-agenter (Claude Code, Codex, OpenHands) er kraftige generelle løsere. Men på spesialiserte oppgaver med lang horisont hoper feilene seg opp uten sporbarhet, og den domenespesifikke ekspertisen mangler. Ferdigheter har utviklet seg til en kraftfull abstraksjonsmetode for å forbedre agentprestasjoner på virkelige oppgaver, men dagens ferdigheter er grundig håndlaget av eksperter. Vi har avdekket en vei til pålitelig automatisering av ferdighetsutvikling.
3/ EvoSkill anvender tekstuell tilbakemeldingsnedstigning for ferdighetsoppdagelse Løkken kjører tre spesialiserte agenter: 1. Utfører: Forsøker en batch med oppgaver under gjeldende ferdighetskonfigurasjon 2. Forslagsstiller: Analyserer mislykkede spor, kryssjekker en kumulativ tilbakemeldingshistorikk fra tidligere forslag, og identifiserer det største kapasitetsgapet 3. Ferdighetsbygger: Materialiserer forslaget i en strukturert ferdighetsmappe (SKILL.md + manus + referanser, osv.) En Pareto-grense av top-N-konfigurasjoner styrer utvelgelsen, hvor kun ferdighetene som forbedrer testsettvalideringen overlever.
4/ EvoSkill oppnår rask ytelse ved å bruke bare en brøkdel av benchmarkdataene Vi testet ytelse på tre referansepunkter: 1. OfficeQA (resonnement over store korpora): 60,6 % → 67,9 % (+7,3 %) og oppnådde SOTA på tvers av alle systemer 2. SealQA (søk-utvidet QA): 26,6 % → 38,7 % (+12,1 %) 3. BrowseComp (åpen-web faktasøking): 43,5 % → 48,8 % (+5,3 %); null-skudd-overføring fra SealQA-utviklede ferdigheter, ingen modifikasjon BrowseComp-resultatet stammer fra ferdigheter utviklet på SealQA (spørringsreformulering, multi-kilde verifisering, strukturert søkepersistens) som overfører zero-shot til en benchmark med ulike spørsmål, vanskelighetsfordeling og hentingsbetingelser. Dette antyder at optimalisering av ferdighetsnivå gir domene-generelle evner snarere enn oppgavespesifikk overtilpasning.
5/ Optimalisering på ferdighetsnivå er bedre abstraksjon for å produsere overførbare funksjoner som er mer modulære enn prompts eller kode EvoSkill er helt åpen kildekode. Vi mener ferdigheter befinner seg på et kritisk sted som prompts og kode ikke kan nå—strukturert nok til å kode flertrinnsprosedyrer med forgrenet logikk/verifisering, og lesbare nok til at en utvikler kan inspisere, redigere og sende videre til en annen agent på en annen modell. Vi fortsetter dette arbeidet på tvers av bredere domener (koding, multimodal) i samarbeid med Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham og @WeiyuanChen01) og er åpne for samarbeid med det bredere forskningsmiljøet.
139