DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Présentation d'EvoSkill : un cadre qui analyse les échecs des agents et construit automatiquement les compétences manquantes, conduisant à une amélioration rapide sur des benchmarks difficiles et des compétences généralisables à travers les cas d'utilisation. +12,1 % sur SealQA +7,3 % sur OfficeQA (SOTA) +5,3 % sur BrowseComp via un transfert zéro-shot depuis SealQA Lisez-en plus ci-dessous 🧵

2/ Les compétences des agents sont une abstraction puissante pour résoudre des problèmes à long terme, mais elles ne peuvent pas facilement évoluer. Les agents de codage (Claude Code, Codex, OpenHands) sont des solveurs polyvalents puissants. Cependant, sur des tâches spécialisées à long terme, les erreurs s'accumulent sans traçabilité et l'expertise spécifique au domaine est absente. Les compétences ont émergé comme une méthode d'abstraction puissante pour améliorer la performance des agents sur des tâches du monde réel, mais les compétences d'aujourd'hui sont rigoureusement conçues à la main par des experts. Nous avons découvert un chemin pour automatiser de manière fiable le développement des compétences.

3/ EvoSkill applique la descente de rétroaction textuelle à la découverte de compétences La boucle exécute trois agents spécialisés : 1. Exécuteur : Tente un lot de tâches sous la configuration de compétence actuelle 2. Proposeur : Analyse les traces échouées, croise un historique de rétroaction cumulatif des propositions antérieures et identifie le plus grand écart de capacité d'impact 3. Constructeur de compétences : Matérialise la proposition dans un dossier de compétences structuré (SKILL.md + scripts + références, etc… ) Une frontière de Pareto des configurations top-N gouverne la sélection, où seules les compétences qui améliorent la validation du jeu de test survivent.

4/ EvoSkill atteint des performances rapides en utilisant seulement une fraction des données de référence Nous avons testé les performances sur trois références : 1. OfficeQA (raisonnement sur de grands corpus) : 60,6 % → 67,9 % (+7,3 %) et atteignant l'état de l'art (SOTA) sur tous les systèmes 2. SealQA (QA augmentée par la recherche) : 26,6 % → 38,7 % (+12,1 %) 3. BrowseComp (recherche de faits sur le web ouvert) : 43,5 % → 48,8 % (+5,3 %) ; transfert zéro-shot des compétences évoluées de SealQA, sans modification Le résultat de BrowseComp provient de compétences évoluées sur SealQA (reformulation de requêtes, vérification multi-sources, persistance de recherche structurée) qui se transfèrent en zéro-shot à une référence avec des questions différentes, une distribution de difficulté et des conditions de récupération différentes. Cela suggère que l'optimisation au niveau des compétences produit des capacités générales au lieu d'un surajustement spécifique à la tâche.

5/ L'optimisation du niveau de compétence est une meilleure abstraction pour produire des capacités transférables plus modulaires que les prompts ou le code. EvoSkill est entièrement open-source. Nous croyons que les compétences occupent une place critique que les prompts et le code ne peuvent atteindre : suffisamment structurées pour encoder des procédures en plusieurs étapes avec logique de branchement/vérification, et suffisamment lisibles pour qu'un développeur puisse inspecter, modifier et transmettre à un autre agent sur un modèle différent. Nous poursuivons ce travail dans des domaines plus larges (codage, multimodal) en collaboration avec Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham et @WeiyuanChen01) et sommes ouverts à la collaboration avec la communauté de recherche au sens large.

109

Meilleurs

Classement

Favoris