MIT har nettopp publisert en artikkel som stille forklarer hvorfor LLM-resonnement møter en vegg og hvordan man kan komme seg forbi den. Den vanlige historien er at modeller feiler på vanskelige problemer fordi de mangler skala, data eller intelligens. Denne artikkelen argumenterer for noe langt mer strukturelt: modeller slutter å forbedres fordi læringssignalet forsvinner. Når en oppgave blir for vanskelig, kollapser suksessraten mot null, forsterkningslæring har ingenting å optimalisere, og resonnementet stagnerer. Svikten er ikke kognitiv, den er pedagogisk. Forfatterne foreslår en enkel, men radikal omformulering. I stedet for å spørre hvordan man kan få modeller til å løse vanskeligere problemer, spør de hvordan modeller kan generere problemer som lærer dem. Deres system, SOAR, deler en enkelt forhåndstrent modell inn i to roller: en elev som forsøker ekstremt vanskelige måloppgaver, og en lærer som genererer nye treningsproblemer. Ulempen er at læreren ikke blir belønnet for å levere smarte eller realistiske spørsmål. Den belønnes kun hvis elevens prestasjon forbedres på et fast sett med reelle evalueringsproblemer. Ingen forbedring betyr null belønning. Det insentivet endrer alt. Læreren lærer å generere mellomliggende oppgaver som ligger rett innenfor elevens nåværende evnegrense. Disse problemene er ikke forenklede versjoner av måloppgaven, og slående nok krever de ikke engang riktige løsninger. Det som betyr noe er at strukturen deres tvinger studenten til å praktisere riktig type resonnement, slik at gradient-signalet kan oppstå selv når direkte veiledning feiler. De eksperimentelle resultatene gjør poenget smertefullt klart. På benchmarks hvor modellene starter uten suksess og standard forsterkningslæring er helt flatlinet, bryter SOAR fastlåsingen og forbedrer ytelsen jevnt. Modellen unnslipper grensen for lærbarhet ikke ved å tenke hardere, men ved å bygge et bedre læringsmiljø for seg selv. Den dypere implikasjonen er ubehagelig. Mange såkalte «resonnementbegrensninger» er kanskje ikke intelligensgrenser i det hele tatt. De er artefakter fra treningsoppsett som antar at verden gir lærbare oppgaver gratis. Denne artikkelen antyder at hvis modeller kan forme sin egen læreplan, blir resonnementplatåer ingeniørproblemer, ikke grunnleggende barrierer. Ingen nye arkitekturer, ingen ekstra menneskelige data, ingen større modeller. Bare et skifte i hva vi belønner: læringsfremgang i stedet for svar.