Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MIT právě publikovalo článek, který tiše vysvětluje, proč uvažování LLM naráží na překážku a jak ji překonat.
Obvyklý příběh je, že modely selžou u těžkých problémů, protože jim chybí škála, data nebo inteligence.
Tento článek tvrdí něco mnohem strukturálnějšího: modely přestávají zlepšovat, protože signál učení mizí. Jakmile se úkol stane příliš obtížným, úspěšnost klesá téměř k nule, posilované učení nemá co optimalizovat a uvažování stagnuje. Selhání není kognitivní, je to pedagogické.
Autoři navrhují jednoduché, ale radikální přeformulování. Místo toho, aby se ptali, jak modely řeší těžší problémy, ptají se, jak mohou generovat problémy, které je učí.
Jejich systém SOAR rozděluje jeden předtrénovaný model do dvou rolí: studenta, který se snaží o extrémně náročné úkoly, a učitele, který generuje nové tréninkové problémy. Háček je v tom, že učitel není odměněn za to, že vytváří chytré nebo realistické otázky. Odměna je pouze tehdy, pokud se výkon studenta zlepší oproti pevně daným hodnotícím problémům. Žádné zlepšení znamená nulovou odměnu.
Tato motivace všechno přetváří.
Učitel se učí vytvářet středně pokročilé, přechodné úlohy, které jsou těsně v rámci aktuálních schopností studenta. Tyto problémy nejsou zjednodušenými verzemi cílového úkolu a pozoruhodné je, že ani nevyžadují správná řešení.
Důležité je, že jejich struktura nutí studenta praktikovat správný druh uvažování, což umožňuje vznik gradientního signálu i v případě selhání přímého dohledu.
Experimentální výsledky to bolestně jasně dokazují. Na benchmarkech, kde modely začínají s nulovým úspěchem a standardní posilované učení zcela stagnuje, SOAR prolomí patovou situaci a postupně zlepšuje výkon.
Model uniká hranici učitelnosti ne tím, že přemýšlí tvrději, ale tím, že si sám vytváří lepší vzdělávací prostředí.
Hlubší důsledek je nepříjemný. Mnoho domnělých "omezení uvažování" nemusí být hranicemi inteligence vůbec. Jsou to artefakty tréninkových systémů, které předpokládají, že svět poskytuje naučitelné problémy zdarma.
Tento článek naznačuje, že pokud si modely mohou utvářet vlastní učební plán, stagnace uvažování se stávají inženýrskými problémy, nikoli základními překážkami.
Žádné nové architektury, žádná další lidská data, žádné větší modely. Jen změna v tom, co odměňujeme: pokrok v učení místo odpovědí.

Top
Hodnocení
Oblíbené
