DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Connor Davis

@getoutbox_ai perustaja Opi rakentamaan tekoälyagentteja ILMAISEKSI 👉 https://t.co/q9zPwlldZ4

MIT julkaisi juuri artikkelin, joka hiljaisesti selittää, miksi LLM:n päättely törmää seinään ja miten siitä voi ylittää. Yleinen tarina on, että mallit epäonnistuvat vaikeissa ongelmissa, koska niiltä puuttuu mittakaava, data tai älykkyys. Tämä artikkeli esittää jotain paljon rakenteellisempaa: mallit lakkaavat kehittymästä, koska oppimissignaali katoaa. Kun tehtävä muuttuu liian vaikeaksi, onnistumisprosentit romahtavat nollaan, vahvistusoppiminen ei optimoi mitään, ja päättely pysähtyy. Epäonnistuminen ei ole kognitiivista, vaan pedagogista. Kirjoittajat ehdottavat yksinkertaista mutta radikaalia uudelleenkehystämistä. Sen sijaan, että kysyttäisiin, miten mallit ratkaistaan vaikeampia ongelmia, he kysyvät, miten mallit voivat tuottaa ongelmia, jotka opettavat heitä. Heidän järjestelmänsä, SOAR, jakaa yhden esikoulutetun mallin kahteen rooliin: oppilaaseen, joka suorittaa erittäin vaikeita tehtäviä, ja opettajaan, joka luo uusia koulutusongelmia. Koukku on siinä, että opettajaa ei palkita älykkäistä tai realistisista kysymyksistä. Sitä palkitaan vain, jos opiskelijan suoriutuminen paranee kiinteässä joukossa todellisia arviointiongelmia. Ei parannusta tarkoittaa nollapalkintoa. Tuo kannustin muuttaa kaikkea. Opettaja oppii luomaan keskitasoisia, askelkivitehtäviä, jotka sijoittuvat juuri oppilaan nykyisten kykyrajojen sisäpuolelle. Nämä ongelmat eivät ole yksinkertaistettuja versioita kohdetehtävästä, ja silmiinpistävää kyllä, ne eivät edes vaadi oikeita ratkaisuja. Tärkeintä on, että niiden rakenne pakottaa opiskelijan harjoittamaan oikeanlaista päättelyä, jolloin gradienttisignaali syntyy, vaikka suora ohjaus epäonnistuisi. Kokeelliset tulokset tekevät asian tuskallisen selväksi. Testeissä, joissa mallit alkavat nollalla menestyksellä ja tavallinen vahvistusoppiminen on täysin tasaista, SOAR rikkoo pattitilanteen ja parantaa suorituskykyä tasaisesti. Malli pääsee opittavuuden rajalta irti ei ajattelemalla kovemmin, vaan rakentamalla itselleen paremman oppimisympäristön. Syvempi vihje on epämiellyttävä. Monet niin sanotut "päättelyn rajat" eivät välttämättä ole älykkyyden rajoja. Ne ovat harjoitusjärjestelmien artefakteja, jotka olettavat, että maailma tarjoaa opittavia ongelmia ilmaiseksi. Tämä artikkeli ehdottaa, että jos mallit voivat muokata omaa opetussuunnitelmaansa, päättelyn tasot muuttuvat insinööritieteiden ongelmiksi, eivät perustavanlaatuisiksi esteiksi. Ei uusia arkkitehtuureja, ei ylimääräistä ihmisdataa, ei suurempia malleja. Vain muutos siinä, mitä palkitsemme: oppimisen edistymistä vastausten sijaan.

Voi helvetti... Tämä artikkeli selittää hiljaisesti, miksi useimmat "päättelymallit" hajoavat heti, kun ne irrotetaan puhtaista vertailuista ja pudotetaan todellisuuteen. LongCat-tiimi tarttuu kysymykseen, jota ala jatkuvasti väistää: jos nykyiset mallit ovat niin hyviä päättelyssä, miksi ne epäonnistuvat silti perusagenttien käyttäytymisessä, kun työkalut hajoavat, käskyt hämärtyvät tai ympäristöt vastustavat? Heidän vastauksensa on epämukava. Päättely ei petä siksi, että ajatusketjut ovat liian lyhyitä. Se epäonnistuu, koska koulutimme ajattelua ilman seurauksia. Artikkeli esittelee LongCat-Flash-Thinking-2601:n, 560B-parametrin asiantuntijoiden sekoitusmallin, joka rakentuu yksinkertaisen mutta radikaalin ajatuksen ympärille: päättely muuttuu luotettavaksi vasta, kun se joutuu toimimaan, havaitsemaan epäonnistumisia ja sopeutumaan todellisissa ympäristöissä. Sen sijaan, että päättelyä käsiteltäisiin tekstin generointina, he kehystävät sen silmukaksi: Seuraa→ suunnittele → toimi → saa palautetta → muokkaa. Tuo muutos heijastuu kaikkialle. Data ei ole enää staattisia kehotteita. Harjoittelu ei ole puhdasta polkua. Arviointi ei ole yksittäisiä vastauksia. Yksi tärkeimmistä panoksista on ympäristön skaalaus. Tekijät luovat automaattisesti 10 000+ suoritettavaa ympäristöä 20+ toimialueella, joista jokainen perustuu todellisiin työkaluihin, oikeisiin tietokantoihin ja useisiin päteviin ratkaisupolkuihin. Vaikeustaso kasvaa rakenteellisesti, ei nokkelilla kehotteisilla tempuilla. Tärkeää on, etteivät he puhdista maailmaa. Työkalun vikoja, epäselviä käskyjä, osittaisia tuloksia ja meluisaa palautetta lisätään tarkoituksella. Melu ei ole bugi. Se on opetussuunnitelma. Jotta koulutus pysyy vakaana tässä mittakaavassa, he laajentavat asynkronista RL:ää (DORA) käsittelemään pitkän horisontin monimutkaisia vuorovaikutuksia kymmenien tuhansien samanaikaisten ympäristöjen kanssa ilman romahtamista. Päättelyhetkellä otetaan käyttöön Raskas Ajattelu -tila. Yhden pitkän ajatusketjun sijaan malli kulkee rinnakkaisia päättelypolkuja ja heijastuu niiden yli ennen kuin toimii. Tämä voittaa johdonmukaisuuden monimutkaisissa, agenttisissa tehtävissä johdonmukaisuudessa. Tulokset puhuvat voimakkaasti. Huipputason suorituskyky BrowseCompissa, τ²-Benchissä ja VitaBenchissä. Vahva matematiikka, koodaus ja hakutulokset. Ja mikä tärkeintä, huomattavasti vähemmän heikkenemistä meluisissa olosuhteissa. Todellinen johtopäätös on terävämpi kuin mikään vertailuarvo: Päättelyn laatu ei enää ole pullonkaula. Yleistys on. Ja yleistys ei tule paremmista kehotteista tai pidemmistä ajatuksista. Se tulee ympäristöistä, jotka vastustavat. Jos haluamme agentteja, jotka työskentelevät demojen ulkopuolella, meidän täytyy lopettaa heidän kouluttamisensa puhtaissa, kuvitteellisissa maailmoissa. Älykkyys ei synny siellä, missä kaikki menee oikein. Se on taottu siellä, missä asiat hajoavat. Artikkeli: LongCat-Flash-Thinking-2601 tekninen raportti Lue koko artikkeli täältä:

Johtavat

Rankkaus

Suosikit