Представляем EvoSkill: фреймворк, который анализирует ошибки агентов и автоматически создает недостающие навыки, что приводит к быстрому улучшению на сложных бенчмарках и универсальным навыкам для различных случаев использования. +12.1% на SealQA +7.3% на OfficeQA (SOTA) +5.3% на BrowseComp через нулевой перенос из SealQA Читать далее ниже 🧵
2/ Навыки агентов являются мощной абстракцией для решения долгосрочных задач, но не могут легко масштабироваться. Кодирующие агенты (Claude Code, Codex, OpenHands) являются мощными универсальными решателями. Однако в специализированных долгосрочных задачах ошибки накапливаются без отслеживаемости, и отсутствует специфическая для домена экспертиза. Навыки стали мощным абстрактным методом для улучшения производительности агентов в реальных задачах, но сегодняшние навыки тщательно разрабатываются экспертами. Мы нашли путь к надежной автоматизации разработки навыков.
3/ EvoSkill применяет текстовый обратный спуск для открытия навыков Цикл запускает три специализированных агента: 1. Исполнитель: Пытается выполнить пакет задач в рамках текущей конфигурации навыков 2. Предложитель: Анализирует неудачные трассировки, перекрестно ссылается на накопленную историю обратной связи предыдущих предложений и определяет наиболее значительный разрыв в возможностях 3. Создатель навыков: Осуществляет предложение в структурированную папку навыков (SKILL.md + скрипты + ссылки и т.д… ) Параметрическая граница топ-N конфигураций управляет выбором, где выживают только навыки, которые улучшают валидацию на тестовом наборе.
4/ EvoSkill достигает высокой производительности, используя лишь часть эталонных данных Мы протестировали производительность по трем эталонам: 1. OfficeQA (рассуждение над большими корпусами): 60.6% → 67.9% (+7.3%) и достигли SOTA среди всех систем 2. SealQA (поиск-усиленный QA): 26.6% → 38.7% (+12.1%) 3. BrowseComp (поиск фактов в открытом вебе): 43.5% → 48.8% (+5.3%); нулевой перенос от навыков, развившихся на SealQA, без модификации Результат BrowseComp возник из навыков, развившихся на SealQA (реформулирование запросов, многопоточная проверка, структурированная устойчивость поиска), которые переносятся нулевым образом на эталон с другими вопросами, распределением сложности и условиями извлечения. Это предполагает, что оптимизация на уровне навыков создает общие возможности для домена, а не специфическую переобученность для задачи.
5/ Оптимизация уровня навыков — это лучшее абстрагирование для создания переносимых возможностей, более модульных, чем подсказки или код. EvoSkill полностью с открытым исходным кодом. Мы считаем, что навыки находятся в критической точке, до которой не могут дотянуться подсказки и код — достаточно структурированные, чтобы закодировать многоступенчатые процедуры с ветвящейся логикой/проверкой, и достаточно читаемые, чтобы разработчик мог их просмотреть, отредактировать и передать другому агенту на другой модели. Мы продолжаем эту работу в более широких областях (кодирование, мультимодальные) в сотрудничестве с Вирджиния Тек (@tuvllms, @noahpro99, Jaydon Bingham и @WeiyuanChen01) и открыты для сотрудничества с более широким исследовательским сообществом.
150