Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Знайомимося з EvoSkill: фреймворком, який аналізує збоїв агентів і автоматично розвиває відсутні навички, що призводить до швидкого покращення складних бенчмарків і узагальнених навичок у різних кейсах використання.
+12,1% на SealQA
+7,3% на OfficeQA (SOTA)
+5,3% на BrowseComp через zero-shot трансфер від SealQA
Детальніше читайте нижче 🧵

2/ Навички агента — це потужна абстракція для розв'язання довгострокових задач, але не може легко масштабуватися
Кодові агенти (Claude Code, Codex, OpenHands) — це потужні універсальні розв'язувачі. Однак у спеціалізованих довготривалих завданнях помилки накопичуються без відстежуваності, а галузеві експертизи відсутні.
Навички стали потужним методом абстракції для покращення ефективності агента у реальних завданнях, але сучасні навички ретельно виробляються експертами.
Ми відкрили шлях до надійної автоматизації розвитку навичок.
3/ EvoSkill застосовує текстовий зворотний зв'язок для відкриття навичок
Цикл керує трьома спеціалізованими агентами:
1. Executor: Виконує набір завдань у поточній конфігурації навички
2. Пропонент: аналізує невдалі сліди, звіряє накопичену історію зворотного зв'язку попередніх пропозицій і виявляє найбільший розрив у спроможностях
3. Конструктор навичок: матеріалізує пропозицію у структуровану папку навичок (SKILL.md + скрипти + посилання тощо).
Відбір керує Парето-межами верхніх N-конфігурацій, де виживають лише навички, що покращують валідацію тестового набору.

4/ EvoSkill досягає швидкої продуктивності, використовуючи лише частину бенчмаркових даних
Ми протестували продуктивність за трьома бенчмарками:
1. OfficeQA (міркування над великими корпорами): 60,6% → 67,9% (+7,3%) та досягнення SOTA у всіх системах
2. SealQA (QA, доповнений пошуком): 26,6% → 38,7% (+12,1%)
3. BrowseComp (відкритий веб-пошук фактів): 43,5% → 48,8% (+5,3%); нульовий трансфер із навичок, еволюціонованих SealQA, без змін
Результат BrowseComp виник із навичок, розроблених на SealQA (переформулювання запитів, багатоджерелова верифікація, структурована стійкість пошуку), які переносять zero shot на бенчмарк з різними питаннями, розподілом складності та умовами пошуку. Це свідчить про те, що оптимізація рівня навичок створює загальні можливості для домену, а не перенавантаження конкретних завдань.

5/ Оптимізація рівня навичок — це краща абстракція для створення переносних можливостей більш модульними, ніж запити чи код.
EvoSkill повністю відкритий. Ми вважаємо, що навички знаходяться у критичній точці, яку не можуть охопити запити та код — достатньо структуровані, щоб кодувати багатокрокові процедури з розгалуженою логікою/верифікацією, і достатньо читабельні, щоб розробник міг перевіряти, редагувати та передавати їх іншому агенту на іншій моделі.
Ми продовжуємо цю роботу у ширших сферах (кодування, мультимодальність) у співпраці з Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham та @WeiyuanChen01) і відкриті до співпраці з ширшою науковою спільнотою.
112
Найкращі
Рейтинг
Вибране
