DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Connor Davis

Fondatorul @getoutbox_ai Învață cum să construiești agenți AI GRATUIT 👉 https://t.co/q9zPwlldZ4

MIT tocmai a publicat un articol care explică discret de ce raționamentul LLM se lovește de un obstacol și cum să depășești acest lucru. Povestea obișnuită este că modelele eșuează la probleme dificile pentru că le lipsește scala, datele sau inteligență. Această lucrare susține ceva mult mai structural: modelele încetează să se îmbunătățească pentru că semnalul de învățare dispare. Odată ce o sarcină devine prea dificilă, ratele de succes se prăbușesc spre zero, învățarea prin întărire nu are nimic de optimizat, iar raționamentul stagnează. Eșecul nu este cognitiv, este pedagogic. Autorii propun o reformulare simplă, dar radicală. În loc să întrebe cum să facă modelele să rezolve probleme mai dificile, ei întreabă cum pot modelele să genereze probleme care să le învețe. Sistemul lor, SOAR, împarte un singur model preantrenat în două roluri: un elev care încearcă sarcini țintă extrem de dificile și un profesor care generează noi probleme de instruire. Problema este că profesorul nu este recompensat pentru că formulează întrebări ingenioase sau realiste. Este recompensat doar dacă performanța elevului se îmbunătățește la un set fix de probleme reale de evaluare. Nicio îmbunătățire înseamnă zero recompensă. Acest stimulent schimbă totul. Profesorul învață să genereze probleme intermediare, de tranziție, care se află chiar în interiorul limitelor actuale ale capacității elevului. Aceste probleme nu sunt versiuni simplificate ale sarcinii țintă și, remarcabil, nici măcar nu necesită soluții corecte. Ceea ce contează este că structura lor obligă studentul să practice tipul corect de raționament, permițând să apară un semnal de gradient chiar și atunci când supravegherea directă eșuează. Rezultatele experimentale fac acest lucru dureros de clar. La benchmark-uri unde modelele încep fără succes și învățarea standard prin întărire se stabilește complet, SOAR deblochează blocajul și îmbunătățește constant performanța. Modelul scapă de marginea învățabilității nu gândind mai intens, ci construindu-și un mediu de învățare mai bun. Implicația mai profundă este inconfortabilă. Multe presupuse "limite de raționament" s-ar putea să nu fie deloc limite ale inteligenței. Ele sunt artefacte ale unor sisteme de antrenament care presupun că lumea oferă probleme învățabile gratuit. Această lucrare sugerează că, dacă modelele își pot modela propriul curriculum, platourile de raționament devin probleme inginerești, nu bariere fundamentale. Fără arhitecturi noi, fără date umane suplimentare, fără modele mai mari. Doar o schimbare în ceea ce răsplătim: învățarea progresului în loc de răspunsuri.

La naiba... Această lucrare explică discret de ce majoritatea modelelor de "raționament" se destramă în momentul în care le deconectezi de la benchmark-uri curate și le lanci în lumea reală. Echipa LongCat abordează o întrebare pe care domeniul o evită mereu: dacă modelele de astăzi sunt atât de bune la raționament, de ce încă eșuează la comportamentul de bază al agentului odată ce uneltele se strică, instrucțiunile devin neclare sau mediile se opun? Răspunsul lor este incomod. Raționamentul nu eșuează pentru că lanțurile de gândire sunt prea scurte. Eșuează pentru că am antrenat gândirea fără consecințe. Lucrarea introduce LongCat-Flash-Thinking-2601, un model Mix-of-Experts cu 560B parametri, construit pe o idee simplă, dar radicală: raționamentul devine fiabil doar atunci când este forțat să acționeze, să observe eșecurile și să se adapteze în medii reale. În loc să trateze raționamentul ca generare de text, îl prezintă ca un ciclu: Observă → planifică → acționează → primește feedback → revizuiește. Acea schimbare se propagă peste tot. Datele nu mai sunt prompturi statice. Antrenamentul nu înseamnă traiectorii curate. Evaluarea nu înseamnă răspunsuri dintr-o singură lovitură. Una dintre cele mai importante contribuții este scalarea mediului. Autorii generează automat 10.000+ medii executabile în 20+ domenii, fiecare bazat pe unelte reale, baze de date reale și multiple căi valide de soluție. Dificultatea crește structural, nu prin trucuri inteligente cu prompturi. Esențial, nu dezinfectează lumea. Defecțiunile uneltelor, instrucțiunile ambigue, ieșirile parțiale și feedback-ul zgomotos sunt injectate deliberat. Zgomotul nu e o eroare. Este curriculumul. Pentru a menține stabilitatea antrenamentului la această scară, ei extind RL asincron (DORA) pentru a gestiona interacțiuni pe orizont lung, cu mai multe viraje, cu zeci de mii de medii concurente fără a se prăbuși. La momentul inferenței, introduc Modul de Gândire Grea. În loc de un singur lanț lung de gândire, modelul rulează căi de raționament paralele și apoi reflectă peste ele înainte de a acționa. Aceasta depășește constant auto-consistența în sarcini complexe, agentice. Rezultatele vorbesc tare. Performanțe de ultimă generație pe BrowseComp, τ²-Bench și VitaBench. Matematică solidă, programare și rezultate de căutare. Și, cel mai important, mult mai puțină degradare în condiții zgomotoase. Concluzia reală este mai clară decât orice cifră de referință: Calitatea raționamentului nu mai este blocajul. Generalizarea este. Iar generalizarea nu vine din prompturi mai bune sau gânduri mai lungi. Vine din medii care se opun. Dacă vrem agenți care lucrează în afara demonstrațiilor, trebuie să încetăm să-i antrenăm în lumi curate, imaginare. Inteligența nu se forjează acolo unde totul merge bine. Se forjează acolo unde lucrurile se strică. Articol: LongCat-Flash-Thinking-2601 Raport tehnic Citiți lucrarea completă aici la:

Limită superioară

Clasament

Favorite