Voi helvetti... Tämä artikkeli selittää hiljaisesti, miksi useimmat "päättelymallit" hajoavat heti, kun ne irrotetaan puhtaista vertailuista ja pudotetaan todellisuuteen. LongCat-tiimi tarttuu kysymykseen, jota ala jatkuvasti väistää: jos nykyiset mallit ovat niin hyviä päättelyssä, miksi ne epäonnistuvat silti perusagenttien käyttäytymisessä, kun työkalut hajoavat, käskyt hämärtyvät tai ympäristöt vastustavat? Heidän vastauksensa on epämukava. Päättely ei petä siksi, että ajatusketjut ovat liian lyhyitä. Se epäonnistuu, koska koulutimme ajattelua ilman seurauksia. Artikkeli esittelee LongCat-Flash-Thinking-2601:n, 560B-parametrin asiantuntijoiden sekoitusmallin, joka rakentuu yksinkertaisen mutta radikaalin ajatuksen ympärille: päättely muuttuu luotettavaksi vasta, kun se joutuu toimimaan, havaitsemaan epäonnistumisia ja sopeutumaan todellisissa ympäristöissä. Sen sijaan, että päättelyä käsiteltäisiin tekstin generointina, he kehystävät sen silmukaksi: Seuraa→ suunnittele → toimi → saa palautetta → muokkaa. Tuo muutos heijastuu kaikkialle. Data ei ole enää staattisia kehotteita. Harjoittelu ei ole puhdasta polkua. Arviointi ei ole yksittäisiä vastauksia. Yksi tärkeimmistä panoksista on ympäristön skaalaus. Tekijät luovat automaattisesti 10 000+ suoritettavaa ympäristöä 20+ toimialueella, joista jokainen perustuu todellisiin työkaluihin, oikeisiin tietokantoihin ja useisiin päteviin ratkaisupolkuihin. Vaikeustaso kasvaa rakenteellisesti, ei nokkelilla kehotteisilla tempuilla. Tärkeää on, etteivät he puhdista maailmaa. Työkalun vikoja, epäselviä käskyjä, osittaisia tuloksia ja meluisaa palautetta lisätään tarkoituksella. Melu ei ole bugi. Se on opetussuunnitelma. Jotta koulutus pysyy vakaana tässä mittakaavassa, he laajentavat asynkronista RL:ää (DORA) käsittelemään pitkän horisontin monimutkaisia vuorovaikutuksia kymmenien tuhansien samanaikaisten ympäristöjen kanssa ilman romahtamista. Päättelyhetkellä otetaan käyttöön Raskas Ajattelu -tila. Yhden pitkän ajatusketjun sijaan malli kulkee rinnakkaisia päättelypolkuja ja heijastuu niiden yli ennen kuin toimii. Tämä voittaa johdonmukaisuuden monimutkaisissa, agenttisissa tehtävissä johdonmukaisuudessa. Tulokset puhuvat voimakkaasti. Huipputason suorituskyky BrowseCompissa, τ²-Benchissä ja VitaBenchissä. Vahva matematiikka, koodaus ja hakutulokset. Ja mikä tärkeintä, huomattavasti vähemmän heikkenemistä meluisissa olosuhteissa. Todellinen johtopäätös on terävämpi kuin mikään vertailuarvo: Päättelyn laatu ei enää ole pullonkaula. Yleistys on. Ja yleistys ei tule paremmista kehotteista tai pidemmistä ajatuksista. Se tulee ympäristöistä, jotka vastustavat....