Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Connor Davis

Основатель @getoutbox_ai Узнайте, как создавать AI-агентов БЕСПЛАТНО 👉 https://t.co/q9zPwlldZ4

MIT только что опубликовал статью, в которой тихо объясняется, почему рассуждения LLM сталкиваются с преградой и как их преодолеть. Обычная история заключается в том, что модели терпят неудачу в сложных задачах, потому что им не хватает масштаба, данных или интеллекта. Эта статья утверждает нечто более структурное: модели перестают улучшаться, потому что сигнал обучения исчезает. Как только задача становится слишком сложной, уровень успеха стремится к нулю, обучение с подкреплением не имеет ничего для оптимизации, и рассуждения застаиваются. Неудача не когнитивная, а педагогическая. Авторы предлагают простую, но радикальную переоценку. Вместо того чтобы спрашивать, как заставить модели решать более сложные задачи, они спрашивают, как модели могут генерировать задачи, которые обучают их. Их система, SOAR, делит одну предобученную модель на две роли: студента, который пытается решить чрезвычайно сложные целевые задачи, и учителя, который генерирует новые учебные задачи. Загвоздка в том, что учитель не вознаграждается за создание умных или реалистичных вопросов. Он вознаграждается только в том случае, если производительность студента улучшается по фиксированному набору реальных оценочных задач. Никакого улучшения — ноль вознаграждения. Этот стимул меняет все. Учитель учится генерировать промежуточные, ступенчатые задачи, которые находятся прямо на границе текущих возможностей студента. Эти задачи не являются упрощенными версиями целевой задачи, и, что примечательно, они даже не требуют правильных решений. Важно то, что их структура заставляет студента практиковать правильный вид рассуждений, позволяя сигналу градиента возникать даже тогда, когда прямая поддержка терпит неудачу. Экспериментальные результаты делают это painfully clear. На контрольных точках, где модели начинают с нулевым успехом, а стандартное обучение с подкреплением полностью вымирает, SOAR разрывает мертвую точку и постепенно улучшает производительность. Модель выходит за пределы обучаемости не благодаря более глубокому мышлению, а благодаря созданию лучшей учебной среды для себя. Глубокий вывод неудобен. Многие предполагаемые "ограничения рассуждений" могут вовсе не быть ограничениями интеллекта. Это артефакты учебных установок, которые предполагают, что мир предоставляет обучаемые задачи бесплатно. Эта статья предполагает, что если модели могут формировать свою собственную учебную программу, то плато рассуждений становятся инженерными проблемами, а не фундаментальными барьерами. Никаких новых архитектур, никаких дополнительных человеческих данных, никаких больших моделей. Просто сдвиг в том, что мы вознаграждаем: прогресс в обучении вместо ответов.

Черт возьми... Этот документ тихо объясняет, почему большинство моделей «рассуждений» разваливаются в тот момент, когда вы отключаете их от чистых эталонов и бросаете в реальный мир. Команда LongCat поднимает вопрос, который область продолжает избегать: если сегодняшние модели так хороши в рассуждениях, почему они все еще терпят неудачи в базовом поведении агентов, когда инструменты ломаются, инструкции становятся неясными или окружающая среда начинает сопротивляться? Их ответ неудобен. Рассуждение не терпит неудачу, потому что цепочки мыслей слишком короткие. Оно терпит неудачу, потому что мы обучали мышление без последствий. Документ представляет LongCat-Flash-Thinking-2601, модель Mixture-of-Experts с 560B параметрами, построенную вокруг простой, но радикальной идеи: рассуждение становится надежным только тогда, когда его заставляют действовать, наблюдать за неудачами и адаптироваться в реальных условиях. Вместо того чтобы рассматривать рассуждение как генерацию текста, они представляют его как цикл: наблюдать → планировать → действовать → получать обратную связь → пересматривать. Этот сдвиг затрагивает все. Данные больше не являются статичными подсказками. Обучение не является чистыми траекториями. Оценка не является одноразовыми ответами. Одним из самых важных вкладов является масштабирование среды. Авторы автоматически генерируют более 10,000 исполняемых сред в более чем 20 областях, каждая из которых основана на реальных инструментах, реальных базах данных и множестве действительных путей решения. Сложность увеличивается структурно, а не за счет хитрых подсказок. Критически важно, что они не очищают мир. Сбои инструментов, неоднозначные инструкции, частичные выводы и шумная обратная связь намеренно вводятся. Шум не является ошибкой. Это учебный план. Чтобы поддерживать стабильность обучения на этом уровне, они расширяют асинхронное RL (DORA), чтобы справляться с долгосрочными, многоповоротными взаимодействиями с десятками тысяч параллельных сред, не давая им рухнуть. Во время вывода они вводят Режим Тяжелого Рассуждения. Вместо одной длинной цепочки мыслей модель запускает параллельные пути рассуждений, а затем рефлексирует по ним перед действием. Это последовательно превосходит самосогласованность в сложных, агентных задачах. Результаты говорят громко. Передовые показатели на BrowseComp, τ²-Bench и VitaBench. Сильные результаты в математике, программировании и поиске. И, что наиболее важно, гораздо меньше деградации в шумных условиях. Настоящий вывод острее любого эталонного числа: Качество рассуждений больше не является узким местом. Обобщение является. А обобщение не приходит от лучших подсказок или более длинных мыслей. Оно приходит из сред, которые оказывают сопротивление. Если мы хотим агентов, которые работают вне демонстраций, нам нужно прекратить их обучение в чистых, воображаемых мирах. Интеллект не формируется там, где все идет правильно. Он формируется там, где все ломается. Документ: Технический отчет LongCat-Flash-Thinking-2601 Читать полный документ здесь:

Топ

Рейтинг

Избранное