MIT tocmai a publicat un articol care explică discret de ce raționamentul LLM se lovește de un obstacol și cum să depășești acest lucru. Povestea obișnuită este că modelele eșuează la probleme dificile pentru că le lipsește scala, datele sau inteligență. Această lucrare susține ceva mult mai structural: modelele încetează să se îmbunătățească pentru că semnalul de învățare dispare. Odată ce o sarcină devine prea dificilă, ratele de succes se prăbușesc spre zero, învățarea prin întărire nu are nimic de optimizat, iar raționamentul stagnează. Eșecul nu este cognitiv, este pedagogic. Autorii propun o reformulare simplă, dar radicală. În loc să întrebe cum să facă modelele să rezolve probleme mai dificile, ei întreabă cum pot modelele să genereze probleme care să le învețe. Sistemul lor, SOAR, împarte un singur model preantrenat în două roluri: un elev care încearcă sarcini țintă extrem de dificile și un profesor care generează noi probleme de instruire. Problema este că profesorul nu este recompensat pentru că formulează întrebări ingenioase sau realiste. Este recompensat doar dacă performanța elevului se îmbunătățește la un set fix de probleme reale de evaluare. Nicio îmbunătățire înseamnă zero recompensă. Acest stimulent schimbă totul. Profesorul învață să genereze probleme intermediare, de tranziție, care se află chiar în interiorul limitelor actuale ale capacității elevului. Aceste probleme nu sunt versiuni simplificate ale sarcinii țintă și, remarcabil, nici măcar nu necesită soluții corecte. Ceea ce contează este că structura lor obligă studentul să practice tipul corect de raționament, permițând să apară un semnal de gradient chiar și atunci când supravegherea directă eșuează. Rezultatele experimentale fac acest lucru dureros de clar. La benchmark-uri unde modelele încep fără succes și învățarea standard prin întărire se stabilește complet, SOAR deblochează blocajul și îmbunătățește constant performanța. Modelul scapă de marginea învățabilității nu gândind mai intens, ci construindu-și un mediu de învățare mai bun. Implicația mai profundă este inconfortabilă. Multe presupuse "limite de raționament" s-ar putea să nu fie deloc limite ale inteligenței. Ele sunt artefacte ale unor sisteme de antrenament care presupun că lumea oferă probleme învățabile gratuit. Această lucrare sugerează că, dacă modelele își pot modela propriul curriculum, platourile de raționament devin probleme inginerești, nu bariere fundamentale. Fără arhitecturi noi, fără date umane suplimentare, fără modele mai mari. Doar o schimbare în ceea ce răsplătim: învățarea progresului în loc de răspunsuri.