Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Святі небеса... У цій статті тихо пояснюється, чому більшість моделей «логіки» розвалюються в той момент, коли ви від'єднуєте їх від чистих бенчмарків і переносите у реальний світ. Команда LongCat відповідає на питання, яке поле постійно ухиляється: якщо сучасні моделі так добре розуміють, чому вони досі не справляються з базовою поведінкою агентів, коли інструменти ламаються, інструкції стають розмитими або середовище чинить опір? Їхня відповідь — незручна. Мислення не підводить, бо ланцюги думок занадто короткі. Вона зазнає невдачі, бо ми тренували мислити без наслідків. У статті представлено LongCat-Flash-Thinking-2601 — модель суміші експертів з параметрами 560B, побудована навколо простої, але радикальної ідеї: мислення стає надійним лише тоді, коли його змушують діяти, спостерігати невдачі та адаптуватися в реальному середовищі. Замість того, щоб розглядати міркування як генерацію тексту, вони подають це як цикл: Спостерігайте→ плануйте → дійте → отримуйте зворотний зв'язок → редагування. Цей зсув розбивається всюди. Дані більше не є статичними підказками. Тренування — це не чисті траєкторії. Оцінювання — це не одноразові відповіді. Одним із найважливіших внесків є масштабування середовища. Автори автоматично генерують 10 000+ виконуваних середовищ у 20+ доменах, кожне з яких базується на реальних інструментах, реальних базах даних і кількох дійсних шляхах рішення. Складність зростає структурно, а не завдяки хитрим підказкам. Головне, що вони не дезінфікують світ. Несправності інструментів, неоднозначні інструкції, часткові виходи та шумний зворотний зв'язок навмисно вводяться. Шум — це не баг. Це навчальна програма. Щоб підтримувати стабільність навчання на цьому масштабі, вони розширюють асинхронний RL (DORA) для обробки довгогоризонтних, багатоповоротних взаємодій із десятками тисяч одночасних середовищ без колапсу. Під час висновку вводять режим важкого мислення. Замість одного довгого ланцюга думок модель рухається паралельними шляхами мислення, а потім відбивається над ними перед тим, як діяти. Це постійно перевершує самопослідовність у складних, агентних завданнях. Результати говорять гучно. Сучасна продуктивність на BrowseComp, τ²-Bench та VitaBench. Сильна математика, програмування та результати пошуку. І найголовніше — значно менше деградації в шумних умовах. Справжній висновок гостріший за будь-який еталонний показник: Якість логіки більше не є вузьким місцем. Узагальнення — це. І узагальнення не виникає з кращих підказок чи довгих роздумів. Вона походить від середовищ, яке чинить опір....

Найкращі

Рейтинг

Вибране