DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

MIT har precis publicerat en artikel som tyst förklarar varför LLM-resonemang stöter på en vägg och hur man kan ta sig förbi den. Den vanliga historien är att modeller misslyckas med svåra problem eftersom de saknar skala, data eller intelligens. Denna artikel argumenterar för något mycket mer strukturellt: modeller slutar förbättras eftersom inlärningssignalen försvinner. När en uppgift blir för svår kollapsar framgångsfrekvensen mot noll, förstärkningsinlärning har inget att optimera och resonemanget stagnerar. Misslyckandet är inte kognitivt, det är pedagogiskt. Författarna föreslår en enkel men radikal omformulering. Istället för att fråga hur man får modeller att lösa svårare problem, frågar de hur modeller kan generera problem som lär dem dem. Deras system, SOAR, delar upp en enda förtränad modell i två roller: en elev som försöker sig på extremt svåra måluppgifter, och en lärare som genererar nya träningsproblem. Problemet är att läraren inte belönas för att producera smarta eller realistiska frågor. Den belönas endast om studentens prestation förbättras på en fast uppsättning verkliga utvärderingsproblem. Ingen förbättring betyder noll belöning. Den incitamentet omformar allt. Läraren lär sig att skapa mellanliggande, springplankor som ligger precis inom elevens nuvarande kapacitetsgräns. Dessa problem är inte förenklade versioner av måluppgiften, och slående nog kräver de inte ens korrekta lösningar. Det viktiga är att deras struktur tvingar studenten att öva rätt sorts resonemang, vilket tillåter gradientsignal att uppstå även när direkt handledning misslyckas. De experimentella resultaten gör poängen smärtsamt tydlig. På benchmarks där modeller börjar utan framgång och standard förstärkningsinlärning helt stagnerar, bryter SOAR dödläget och förbättrar prestandan stadigt. Modellen undkommer gränsen för inlärningsbarhet inte genom att tänka hårdare, utan genom att bygga en bättre lärmiljö för sig själv. Den djupare implikationen är obekväm. Många påstådda "resonemangsgränser" är kanske inte alls intelligensgränser. De är artefakter från träningsupplägg som antar att världen erbjuder inlärningsproblem gratis. Denna artikel föreslår att om modeller kan forma sin egen läroplan, blir resonemangståer tekniska problem, inte grundläggande hinder. Inga nya arkitekturer, inga extra mänskliga data, inga större modeller. Bara en förändring i vad vi belönar: lärandeframsteg istället för svar.

Topp

Rankning

Favoriter