Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MIT щойно опублікував статтю, яка тихо пояснює, чому логіка LLM стикається зі стіною і як її подолати.
Зазвичай моделі зазнають невдачі у складних задачах через брак масштабу, даних чи інтелекту.
У цій статті стверджується щось набагато більш структурне: моделі перестають покращуватися, бо сигнал навчання зникає. Як тільки завдання стає надто складним, рівень успішності падає до нуля, навчання через підкріплення не має чого оптимізувати, а мислення застигає. Невдача не когнітивна, а педагогічна.
Автори пропонують просте, але радикальне переосмислення. Замість того, щоб запитувати, як змусити моделі розв'язувати складніші задачі, вони запитують, як моделі можуть створювати завдання, які їх навчають.
Їхня система, SOAR, розділяє одну попередньо навчену модель на дві ролі: студента, який виконує надзвичайно складні завдання, і викладача, який створює нові тренувальні завдання. Але проблема в тому, що вчителя не винагороджують за створення розумних чи реалістичних питань. Вона винагороджується лише у випадку, якщо результати учня покращуються на фіксованому наборі реальних задач оцінювання. Відсутність покращення означає жодної винагороди.
Цей стимул змінює все.
Вчитель вчиться створювати проміжні, початкові задачі, які знаходяться безпосередньо в межах поточної межі можливостей учня. Ці задачі не є спрощеними версіями цільового завдання, і, що вражає, вони навіть не потребують правильних рішень.
Важливо те, що їхня структура змушує студента практикувати правильний тип мислення, дозволяючи градієнтному сигналу з'являтися навіть тоді, коли прямий нагляд не вдається.
Експериментальні результати болісно чітко показують цю думку. На бенчмарках, де моделі починають з нульовим успіхом і стандартне навчання через підкріплення повністю закриваються, SOAR розривається з глухого кута і поступово покращує продуктивність.
Модель уникає межі навчаності не через глибше мислення, а через створення кращого навчального середовища для себе.
Глибший висновок викликає дискомфорт. Багато нібито «обмежень мислення» можуть взагалі не бути обмеженнями інтелекту. Це артефакти навчальних систем, які припускають, що світ безкоштовно надає завдання, які можна засвоїти.
У цій статті пропонується, що якщо моделі можуть формувати власну навчальну програму, то плато мислення стає інженерними проблемами, а не фундаментальними бар'єрами.
Жодних нових архітектур, жодних додаткових людських даних, жодних більших моделей. Просто зміна того, що ми винагороджуємо: прогрес у навчанні замість відповідей.

Найкращі
Рейтинг
Вибране
