Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
В епоху передпідготовки важливим був текст в Інтернеті. Перш за все, вам потрібна велика, різноманітна, високоякісна колекція інтернет-документів для навчання.
В епоху контрольованого доопрацювання це були розмови. Контрактні працівники наймаються для створення відповідей на питання, трохи схожі на ті, що ви бачите на Stack Overflow / Quora або і т.д., але орієнтовані на випадки використання LLM.
Ні те, ні інше не зникає (імо), але в цю епоху навчання з підкріпленням це тепер середовище. На відміну від перерахованих вище, вони дають ЛЛМ можливість реально взаємодіяти - виконувати дії, бачити результати і т.д. Це означає, що ви можете сподіватися на набагато краще, ніж статистична експертна імітація. І їх можна використовувати як для модельного навчання, так і для оцінки. Але, як і раніше, основна проблема зараз полягає в потребі у великому, різноманітному, високоякісному наборі середовищ, як вправ для практики LLM.
У певному сенсі мені нагадує найперший проєкт OpenAI (тренажерний зал), який був саме фреймворком, який сподівався побудувати велику колекцію середовищ у тій самій схемі, але це було набагато раніше LLM. Таким чином, середовища були простими академічними контрольними завданнями того часу, як картшток, ATARI тощо. Хаб @PrimeIntellect середовищ (і репозиторій 'verifiers' на GitHub) будує модернізовану версію, спеціально націлену на LLM, і це великі зусилля/ідеї. Я запропонував, щоб хтось побудував щось подібне на початку цього року:
Середовища мають ту властивість, що як тільки скелет фреймворку на місці, в принципі, спільнота / індустрія може паралельно працювати в багатьох різних доменах, що захоплює.
Заключна думка - особиста і довгострокова, я оптимістично налаштований щодо оточення та агентичної взаємодії, але я ведмежий щодо навчання саме з підкріпленням. Я думаю, що функції винагороди супер су, і я думаю, що люди не використовують РЛ для навчання (можливо, вони використовують для якихось рухових завдань і т.д., але не для завдань з інтелектуального вирішення проблем). Люди використовують різні парадигми навчання, які є значно потужнішими та ефективними для вибірки, і які ще не були належним чином винайдені та масштабовані, хоча існують ранні ескізи та ідеї (як лише один із прикладів, ідея «системного оперативного навчання», перенесення оновлення на лексеми/контексти, а не ваги, і, за бажанням, переведення на ваги як окремий процес, трохи схожий на сон).

28 серп. 2025 р.
Introducing the Environments Hub
RL environments are the key bottleneck to the next wave of AI progress, but big labs are locking them down
We built a community platform for crowdsourcing open environments, so anyone can contribute to open-source AGI
798,44K
Найкращі
Рейтинг
Вибране