Presentamos EvoSkill: un marco que analiza las fallas de los agentes y construye automáticamente las habilidades que faltan, lo que lleva a una mejora rápida en puntos de referencia difíciles y habilidades generalizables en diferentes casos de uso. +12.1% en SealQA +7.3% en OfficeQA (SOTA) +5.3% en BrowseComp a través de transferencia cero disparo desde SealQA Lee más abajo 🧵
2/ Las habilidades de los agentes son una poderosa abstracción para resolver problemas a largo plazo, pero no pueden escalar fácilmente. Los agentes de codificación (Claude Code, Codex, OpenHands) son potentes solucionadores de propósito general. Sin embargo, en tareas especializadas a largo plazo, los errores se acumulan sin trazabilidad y falta la experiencia específica del dominio. Las habilidades han surgido como un poderoso método de abstracción para mejorar el rendimiento de los agentes en tareas del mundo real, pero las habilidades actuales son rigurosamente elaboradas a mano por expertos. Hemos descubierto un camino para automatizar de manera confiable el desarrollo de habilidades.
3/ EvoSkill aplica el descenso de retroalimentación textual al descubrimiento de habilidades El bucle ejecuta tres agentes especializados: 1. Executor: Intenta un lote de tareas bajo la configuración de habilidades actual 2. Proposer: Analiza las trazas fallidas, contrasta un historial de retroalimentación acumulativa de propuestas anteriores e identifica la brecha de capacidad de mayor impacto 3. Skill Builder: Materializa la propuesta en una carpeta de habilidades estructurada (SKILL.md + scripts + referencias, etc… ) Una frontera de Pareto de las configuraciones top-N gobierna la selección, donde solo las habilidades que mejoran en la validación del conjunto de pruebas sobreviven.
4/ EvoSkill logra un rendimiento rápido utilizando solo una fracción de los datos de referencia Probamos el rendimiento en tres benchmarks: 1. OfficeQA (razonamiento sobre grandes corpus): 60.6% → 67.9% (+7.3%) y logrando SOTA en todos los sistemas 2. SealQA (QA aumentado por búsqueda): 26.6% → 38.7% (+12.1%) 3. BrowseComp (búsqueda de hechos en la web abierta): 43.5% → 48.8% (+5.3%); transferencia cero disparo de habilidades evolucionadas en SealQA, sin modificación El resultado de BrowseComp provino de habilidades evolucionadas en SealQA (reformulación de consultas, verificación de múltiples fuentes, persistencia de búsqueda estructurada) que se transfieren cero disparo a un benchmark con diferentes preguntas, distribución de dificultad y condiciones de recuperación. Esto sugiere que la optimización a nivel de habilidades produce capacidades generales de dominio en lugar de sobreajuste específico de tarea.
5/ La optimización del nivel de habilidad es una mejor abstracción para producir capacidades transferibles más modulares que los prompts o el código. EvoSkill es completamente de código abierto. Creemos que las habilidades ocupan un lugar crítico que los prompts y el código no pueden alcanzar: lo suficientemente estructuradas como para codificar procedimientos de múltiples pasos con lógica/validación ramificada, y lo suficientemente legibles como para que un desarrollador pueda inspeccionar, editar y pasar a otro agente en un modelo diferente. Estamos continuando este trabajo en dominios más amplios (programación, multimodal) en colaboración con Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham y @WeiyuanChen01) y estamos abiertos a colaborar con la comunidad de investigación más amplia.
98