DApp Store | Centrum Web3 pro události a hry

Populární témata

Connor Davis

Zakladatel @getoutbox_ai Naučte se, jak vytvářet AI agenty ZDARMA 👉 https://t.co/q9zPwlldZ4

MIT právě publikovalo článek, který tiše vysvětluje, proč uvažování LLM naráží na překážku a jak ji překonat. Obvyklý příběh je, že modely selžou u těžkých problémů, protože jim chybí škála, data nebo inteligence. Tento článek tvrdí něco mnohem strukturálnějšího: modely přestávají zlepšovat, protože signál učení mizí. Jakmile se úkol stane příliš obtížným, úspěšnost klesá téměř k nule, posilované učení nemá co optimalizovat a uvažování stagnuje. Selhání není kognitivní, je to pedagogické. Autoři navrhují jednoduché, ale radikální přeformulování. Místo toho, aby se ptali, jak modely řeší těžší problémy, ptají se, jak mohou generovat problémy, které je učí. Jejich systém SOAR rozděluje jeden předtrénovaný model do dvou rolí: studenta, který se snaží o extrémně náročné úkoly, a učitele, který generuje nové tréninkové problémy. Háček je v tom, že učitel není odměněn za to, že vytváří chytré nebo realistické otázky. Odměna je pouze tehdy, pokud se výkon studenta zlepší oproti pevně daným hodnotícím problémům. Žádné zlepšení znamená nulovou odměnu. Tato motivace všechno přetváří. Učitel se učí vytvářet středně pokročilé, přechodné úlohy, které jsou těsně v rámci aktuálních schopností studenta. Tyto problémy nejsou zjednodušenými verzemi cílového úkolu a pozoruhodné je, že ani nevyžadují správná řešení. Důležité je, že jejich struktura nutí studenta praktikovat správný druh uvažování, což umožňuje vznik gradientního signálu i v případě selhání přímého dohledu. Experimentální výsledky to bolestně jasně dokazují. Na benchmarkech, kde modely začínají s nulovým úspěchem a standardní posilované učení zcela stagnuje, SOAR prolomí patovou situaci a postupně zlepšuje výkon. Model uniká hranici učitelnosti ne tím, že přemýšlí tvrději, ale tím, že si sám vytváří lepší vzdělávací prostředí. Hlubší důsledek je nepříjemný. Mnoho domnělých "omezení uvažování" nemusí být hranicemi inteligence vůbec. Jsou to artefakty tréninkových systémů, které předpokládají, že svět poskytuje naučitelné problémy zdarma. Tento článek naznačuje, že pokud si modely mohou utvářet vlastní učební plán, stagnace uvažování se stávají inženýrskými problémy, nikoli základními překážkami. Žádné nové architektury, žádná další lidská data, žádné větší modely. Jen změna v tom, co odměňujeme: pokrok v učení místo odpovědí.

Sakra... Tento článek tiše vysvětluje, proč většina "usuzujících" modelů se rozpadne ve chvíli, kdy je odpojíte od čistých benchmarků a vložíte je do reálného světa. Tým LongCat se zabývá otázkou, kterou se obor neustále vyhýbá: pokud jsou dnešní modely tak dobré v uvažování, proč stále selhávají v základním chování agentů, když se nástroje pokazí, instrukce se rozmazávají nebo prostředí se brání? Jejich odpověď je nepříjemná. Uvažování neselhává proto, že řetězce myšlenek jsou příliš krátké. Selhává, protože jsme trénovali myšlení bez následků. Článek představuje LongCat-Flash-Thinking-2601, model směsi expertů s 560 parametry postavený na jednoduché, ale radikální myšlence: uvažování se stává spolehlivým pouze tehdy, když je nuceno jednat, pozorovat selhání a přizpůsobovat se v reálném prostředí. Místo toho, aby uvažování považovali za generování textu, rámují to jako smyčku: Pozorujte → plánujte → jednajte→ získávejte zpětnou vazbu → revidujte. Ta změna se šíří všude. Data už nejsou statické výzvy. Výcvik není čistá cesta. Hodnocení není jednorázová odpověď. Jedním z nejdůležitějších příspěvků je škálování prostředí. Autoři automaticky generují 10 000+ spustitelných prostředí napříč 20+ doménami, každé založené na skutečných nástrojích, skutečných databázích a více platných řešeních. Obtížnost se zvyšuje strukturálně, ne chytrými triky s prompty. Zásadní je, že nedezinfikují svět. Selhání nástrojů, nejasné instrukce, částečné výstupy a šumová zpětná vazba jsou záměrně vkládány. Hluk není chyba. Je to o učebním plánu. Aby udrželi trénink stabilní v tomto měřítku, rozšiřují asynchronní RL (DORA) pro dlouhodobé interakce s více tahy a desítkami tisíc současných prostředí bez kolapsu. Při odvozování zavádějí režim těžkého myšlení. Místo jednoho dlouhého řetězce myšlenek model vede paralelní cesty uvažování a poté je před jednáním reflektuje. To je konzistentní než konzistence u složitých, agentických úkolů. Výsledky mluví nahlas. Špičkový výkon na BrowseComp, τ²-Bench a VitaBench. Silná matematika, programování a výsledky vyhledávání. A co je nejdůležitější, mnohem menší degradace za hlučných podmínek. Skutečný závěr je ostřejší než jakékoli referenční číslo: Kvalita uvažování už není úzkým hrdlem. Generalizace ano. A zobecňování nepřichází z lepších podnětů nebo delších myšlenek. Přichází z prostředí, která se brání. Pokud chceme agenty, kteří pracují mimo dema, musíme přestat je trénovat v čistých, imaginárních světech. Inteligence se nevytváří tam, kde všechno jde správně. Je to kované tam, kde se věci lámou. Článek: Technická zpráva LongCat-Flash-Thinking-2601 Celý článek si můžete přečíst zde na:

Top

Hodnocení

Oblíbené