MIT heeft zojuist een paper gepubliceerd die stilletjes uitlegt waarom LLM-redenering tegen een muur aanloopt en hoe je daar voorbij kunt gaan. Het gebruikelijke verhaal is dat modellen falen op moeilijke problemen omdat ze gebrek hebben aan schaal, data of intelligentie. Dit paper stelt iets veel structurelers voor: modellen stoppen met verbeteren omdat het leersignaal verdwijnt. Zodra een taak te moeilijk wordt, vallen de succespercentages naar nul, heeft reinforcement learning niets om te optimaliseren, en stagnatie in redenering treedt op. De mislukking is niet cognitief, maar pedagogisch. De auteurs stellen een eenvoudige maar radicale herformulering voor. In plaats van te vragen hoe modellen moeilijkere problemen kunnen oplossen, vragen ze hoe modellen problemen kunnen genereren die hen onderwijzen. Hun systeem, SOAR, splitst een enkel voorgetraind model in twee rollen: een student die extreem moeilijke doelstellingen probeert, en een leraar die nieuwe trainingsproblemen genereert. Het probleem is dat de leraar niet wordt beloond voor het produceren van slimme of realistische vragen. Hij wordt alleen beloond als de prestaties van de student verbeteren op een vaste set van echte evaluatieproblemen. Geen verbetering betekent nul beloning. Die prikkel herschikt alles. De leraar leert om tussenliggende, opstapproblemen te genereren die net binnen de huidige capaciteitsgrens van de student liggen. Deze problemen zijn geen vereenvoudigde versies van de doelstelling, en opvallend genoeg vereisen ze zelfs geen correcte oplossingen. Wat belangrijk is, is dat hun structuur de student dwingt om de juiste soort redenering te oefenen, waardoor het gradiëntsignaal kan ontstaan, zelfs wanneer directe supervisie faalt. De experimentele resultaten maken het punt pijnlijk duidelijk. Op benchmarks waar modellen beginnen met nul succes en standaard reinforcement learning volledig stilvalt, doorbreekt SOAR de impasse en verbetert de prestaties gestaag. Het model ontsnapt aan de rand van leerbaarheid niet door harder na te denken, maar door een betere leeromgeving voor zichzelf te creëren. De diepere implicatie is ongemakkelijk. Veel veronderstelde “redeneringslimieten” zijn misschien helemaal geen limieten van intelligentie. Het zijn artefacten van trainingsopstellingen die aannemen dat de wereld leerbare problemen gratis biedt. Dit paper suggereert dat als modellen hun eigen curriculum kunnen vormgeven, redeneringsplateaus engineeringproblemen worden, geen fundamentele barrières. Geen nieuwe architecturen, geen extra menselijke data, geen grotere modellen. Gewoon een verschuiving in wat we belonen: leerprogressie in plaats van antwoorden.