DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Apresentando o EvoSkill: um framework que analisa falhas de agentes e constrói automaticamente as habilidades em falta, levando a melhorias rápidas em benchmarks difíceis e habilidades generalizáveis entre casos de uso. +12,1% no SealQA +7,3% no OfficeQA (SOTA) +5,3% no BrowseComp via transferência zero-shot do SealQA Leia mais abaixo 🧵

2/ As habilidades de agente são uma abstração poderosa para resolver problemas de longo prazo, mas não podem escalar facilmente Agentes de codificação (Claude Code, Codex, OpenHands) são solucionadores poderosos de uso geral. No entanto, em tarefas especializadas de longo prazo, erros se acumulam sem rastreabilidade e a expertise específica do domínio está ausente. As habilidades surgiram como um método poderoso de abstração para melhorar o desempenho dos agentes em tarefas do mundo real, mas as habilidades atuais são rigorosamente desenvolvidas à mão por especialistas. Descobrimos um caminho para automatizar o desenvolvimento de habilidades de forma confiável.

3/ EvoSkill aplica feedback textual descendente à descoberta de habilidades O loop executa três agentes especializados: 1. Executor: Tenta um lote de tarefas sob a configuração atual de habilidades 2. Proponente: Analisa rastreamentos fracassados, cruza um histórico cumulativo de feedback de propostas anteriores e identifica a lacuna de maior impacto em capacidade 3. Construtor de Habilidades: Materializa a proposta em uma pasta estruturada de habilidades (SKILL.md + scripts + referências, etc...) Uma fronteira de Pareto de configurações top-N governa a seleção, onde apenas as habilidades que melhoram a validação do conjunto de testes sobrevivem.

4/ EvoSkill alcança desempenho rápido usando apenas uma fração dos dados do benchmark Testamos o desempenho em três benchmarks: 1. OfficeQA (raciocínio sobre corpora grandes): 60,6% → 67,9% (+7,3%) e alcançando a SOTA em todos os sistemas 2. SealQA (QA aumentada por busca): 26,6% → 38,7% (+12,1%) 3. BrowseComp (busca de fatos na web aberta): 43,5% → 48,8% (+5,3%); transferência zero-shot das habilidades evoluídas pela SealQA, sem modificação O resultado do BrowseComp surgiu de habilidades desenvolvidas no SealQA (reformulação de consultas, verificação multi-fonte, persistência de busca estruturada) que transferem o zero-shot para um benchmark com diferentes perguntas, distribuição de dificuldade e condições de recuperação. Isso sugere que a otimização em nível de habilidade produz capacidades gerais de domínio, em vez de sobreajuste específico de tarefa.

5/ Otimização em nível de habilidade é uma abstração melhor para produzir capacidades transferíveis mais modulares do que prompts ou código O EvoSkill é totalmente de código aberto. Acreditamos que as habilidades estão em um ponto crítico que prompts e código não conseguem alcançar — estruturadas o suficiente para codificar procedimentos em múltiplas etapas com lógica ramificada/verificação, e legíveis o suficiente para que um desenvolvedor possa inspecionar, editar e passar para outro agente em um modelo diferente. Estamos continuando esse trabalho em domínios mais amplos (programação, multimodal) em colaboração com a Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham e @WeiyuanChen01) e estamos abertos à colaboração com a comunidade de pesquisa mais ampla.

115

Melhores

Classificação

Favoritos