Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Introductie van EvoSkill: een framework dat agentfouten analyseert en automatisch de ontbrekende vaardigheden opbouwt, wat leidt tot snelle verbetering op moeilijke benchmarks en generaliseerbare vaardigheden over verschillende gebruiksgevallen.
+12,1% op SealQA
+7,3% op OfficeQA (SOTA)
+5,3% op BrowseComp via zero-shot transfer van SealQA
Lees meer hieronder 🧵

2/ Agentvaardigheden zijn een krachtige abstractie om problemen op lange termijn op te lossen, maar kunnen niet gemakkelijk opschalen.
Coderingagenten (Claude Code, Codex, OpenHands) zijn krachtige algemene oplossers. Echter, bij gespecialiseerde taken op lange termijn stapelen fouten zich op zonder traceerbaarheid en ontbreekt de domeinspecifieke expertise.
Vaardigheden zijn naar voren gekomen als een krachtige abstractiemethode om de prestaties van agenten bij real-world taken te verbeteren, maar de vaardigheden van vandaag zijn rigoureus handgemaakt door experts.
We hebben een pad ontdekt om de ontwikkeling van vaardigheden betrouwbaar te automatiseren.
3/ EvoSkill past tekstuele feedbackafname toe op vaardigheidsontdekking
De loop draait drie gespecialiseerde agenten:
1. Executor: Probeert een batch taken uit onder de huidige vaardigheidsconfiguratie
2. Proposer: Analyseert mislukte sporen, vergelijkt een cumulatieve feedbackgeschiedenis van eerdere voorstellen en identificeert de grootste impact vaardigheidskloof
3. Skill Builder: Materialiseert het voorstel in een gestructureerde vaardigheidsmap (SKILL.md + scripts + referenties, enz… )
Een Pareto-grens van top-N configuraties beheert de selectie, waarbij alleen de vaardigheden die verbeteren op de testsetvalidatie overleven.

4/ EvoSkill behaalt snelle prestaties met slechts een fractie van de benchmarkgegevens
We hebben de prestaties getest op drie benchmarks:
1. OfficeQA (redeneren over grote corpora): 60,6% → 67,9% (+7,3%) en behaalt SOTA over alle systemen
2. SealQA (zoek-augmented QA): 26,6% → 38,7% (+12,1%)
3. BrowseComp (open-web feit-zoekend): 43,5% → 48,8% (+5,3%); zero-shot overdracht van SealQA-ontwikkelde vaardigheden, geen wijziging
Het resultaat van BrowseComp kwam voort uit vaardigheden die zijn ontwikkeld op SealQA (query-herformulering, multi-bron verificatie, gestructureerde zoekpersistentie) die zero-shot overdragen naar een benchmark met verschillende vragen, moeilijkheidsverdeling en retrieval-voorwaarden. Dit suggereert dat optimalisatie op vaardigheidsniveau domein-algemene capaciteiten produceert in plaats van taak-specifieke overfitting.

5/ Optimalisatie van vaardigheidsniveau is een betere abstractie om overdraagbare capaciteiten te produceren die meer modulair zijn dan prompts of code.
EvoSkill is volledig open-source. Wij geloven dat vaardigheden zich op een kritieke plek bevinden die prompts en code niet kunnen bereiken—gestructureerd genoeg om meerstapsprocedures met vertakkingslogica/validatie te coderen, en leesbaar genoeg zodat een ontwikkelaar kan inspecteren, bewerken en doorgeven aan een andere agent op een ander model.
We zetten dit werk voort in bredere domeinen (coderen, multimodaal) in samenwerking met Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham en @WeiyuanChen01) en staan open voor samenwerking met de bredere onderzoeksgemeenschap.
112
Boven
Positie
Favorieten
