Apresentando o EvoSkill: uma estrutura que analisa falhas de agentes e constrói automaticamente as habilidades em falta, levando a uma melhoria rápida em benchmarks difíceis e habilidades generalizáveis em diferentes casos de uso. +12,1% no SealQA +7,3% no OfficeQA (SOTA) +5,3% no BrowseComp via transferência zero-shot do SealQA Leia mais abaixo 🧵
2/ As habilidades dos agentes são uma abstração poderosa para resolver problemas de longo prazo, mas não conseguem escalar facilmente. Agentes de codificação (Claude Code, Codex, OpenHands) são solucionadores gerais poderosos. No entanto, em tarefas especializadas de longo prazo, os erros se acumulam sem rastreabilidade e a expertise específica do domínio está ausente. As habilidades surgiram como um método de abstração poderoso para melhorar o desempenho dos agentes em tarefas do mundo real, mas as habilidades de hoje são rigorosamente elaboradas por especialistas. Descobrimos um caminho para automatizar de forma confiável o desenvolvimento de habilidades.
3/ EvoSkill aplica a descida de feedback textual à descoberta de habilidades O loop executa três agentes especializados: 1. Executor: Tenta um lote de tarefas sob a configuração de habilidade atual 2. Proponente: Analisa rastros falhados, faz uma referência cruzada a um histórico de feedback cumulativo de propostas anteriores e identifica a lacuna de capacidade de maior impacto 3. Construtor de Habilidades: Materializa a proposta em uma pasta de habilidades estruturada (SKILL.md + scripts + referências, etc… ) Uma fronteira de Pareto das configurações top-N governa a seleção, onde apenas as habilidades que melhoram na validação do conjunto de teste sobrevivem.
4/ EvoSkill alcança um desempenho rápido usando apenas uma fração dos dados de referência Testámos o desempenho em três referências: 1. OfficeQA (raciocínio sobre grandes corpora): 60,6% → 67,9% (+7,3%) e alcançando SOTA em todos os sistemas 2. SealQA (QA aumentado por busca): 26,6% → 38,7% (+12,1%) 3. BrowseComp (busca de fatos na web aberta): 43,5% → 48,8% (+5,3%); transferência zero-shot de habilidades evoluídas em SealQA, sem modificação O resultado do BrowseComp decorreu de habilidades evoluídas em SealQA (reformulação de consultas, verificação de múltiplas fontes, persistência de busca estruturada) que transferem zero-shot para uma referência com perguntas diferentes, distribuição de dificuldade e condições de recuperação. Isso sugere que a otimização a nível de habilidades produz capacidades gerais de domínio em vez de sobreajuste específico de tarefa.
5/ A otimização do nível de habilidade é uma abstração melhor para produzir capacidades transferíveis mais modulares do que prompts ou código O EvoSkill é totalmente open-source. Acreditamos que as habilidades ocupam um lugar crítico que prompts e código não conseguem alcançar—estruturadas o suficiente para codificar procedimentos de múltiplas etapas com lógica/validação ramificada, e legíveis o suficiente para que um desenvolvedor possa inspecionar, editar e passar para um agente diferente em um modelo diferente. Estamos continuando este trabalho em domínios mais amplos (programação, multimodal) em colaboração com a Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham e @WeiyuanChen01) e estamos abertos à colaboração com a comunidade de pesquisa mais ampla.
109