DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Connor Davis

Oprichter van @getoutbox_ai Leer hoe je AI Agents GRATIS 👉 bouwt https://t.co/q9zPwlldZ4

MIT heeft zojuist een paper gepubliceerd die stilletjes uitlegt waarom LLM-redenering tegen een muur aanloopt en hoe je daar voorbij kunt gaan. Het gebruikelijke verhaal is dat modellen falen op moeilijke problemen omdat ze gebrek hebben aan schaal, data of intelligentie. Dit paper stelt iets veel structurelers voor: modellen stoppen met verbeteren omdat het leersignaal verdwijnt. Zodra een taak te moeilijk wordt, vallen de succespercentages naar nul, heeft reinforcement learning niets om te optimaliseren, en stagnatie in redenering treedt op. De mislukking is niet cognitief, maar pedagogisch. De auteurs stellen een eenvoudige maar radicale herformulering voor. In plaats van te vragen hoe modellen moeilijkere problemen kunnen oplossen, vragen ze hoe modellen problemen kunnen genereren die hen onderwijzen. Hun systeem, SOAR, splitst een enkel voorgetraind model in twee rollen: een student die extreem moeilijke doelstellingen probeert, en een leraar die nieuwe trainingsproblemen genereert. Het probleem is dat de leraar niet wordt beloond voor het produceren van slimme of realistische vragen. Hij wordt alleen beloond als de prestaties van de student verbeteren op een vaste set van echte evaluatieproblemen. Geen verbetering betekent nul beloning. Die prikkel herschikt alles. De leraar leert om tussenliggende, opstapproblemen te genereren die net binnen de huidige capaciteitsgrens van de student liggen. Deze problemen zijn geen vereenvoudigde versies van de doelstelling, en opvallend genoeg vereisen ze zelfs geen correcte oplossingen. Wat belangrijk is, is dat hun structuur de student dwingt om de juiste soort redenering te oefenen, waardoor het gradiëntsignaal kan ontstaan, zelfs wanneer directe supervisie faalt. De experimentele resultaten maken het punt pijnlijk duidelijk. Op benchmarks waar modellen beginnen met nul succes en standaard reinforcement learning volledig stilvalt, doorbreekt SOAR de impasse en verbetert de prestaties gestaag. Het model ontsnapt aan de rand van leerbaarheid niet door harder na te denken, maar door een betere leeromgeving voor zichzelf te creëren. De diepere implicatie is ongemakkelijk. Veel veronderstelde “redeneringslimieten” zijn misschien helemaal geen limieten van intelligentie. Het zijn artefacten van trainingsopstellingen die aannemen dat de wereld leerbare problemen gratis biedt. Dit paper suggereert dat als modellen hun eigen curriculum kunnen vormgeven, redeneringsplateaus engineeringproblemen worden, geen fundamentele barrières. Geen nieuwe architecturen, geen extra menselijke data, geen grotere modellen. Gewoon een verschuiving in wat we belonen: leerprogressie in plaats van antwoorden.

Heilige shit... Dit paper legt stilletjes uit waarom de meeste "redenerings"-modellen in elkaar storten op het moment dat je ze loskoppelt van schone benchmarks en in de echte wereld plaatst. Het LongCat-team pakt een vraag aan die het veld blijft ontwijken: als de modellen van vandaag zo goed zijn in redeneren, waarom falen ze dan nog steeds bij basaal agentgedrag zodra tools falen, instructies vaag worden of omgevingen tegenwerken? Hun antwoord is ongemakkelijk. Redeneren faalt niet omdat de denkprocessen te kort zijn. Het faalt omdat we denken hebben getraind zonder gevolgen. Het paper introduceert LongCat-Flash-Thinking-2601, een 560B-parameter Mixture-of-Experts-model dat is gebouwd rond een eenvoudig maar radicaal idee: redeneren wordt pas betrouwbaar wanneer het gedwongen wordt om te handelen, falen waar te nemen en zich aan te passen in echte omgevingen. In plaats van redeneren te behandelen als tekstgeneratie, kaderen ze het als een lus: observeer → plan → handel → krijg feedback → herzie. Die verschuiving heeft overal gevolgen. Gegevens zijn niet langer statische prompts. Training is geen schone trajecten meer. Evaluatie is geen eenmalige antwoorden meer. Een van de belangrijkste bijdragen is omgevingsschaling. De auteurs genereren automatisch 10.000+ uitvoerbare omgevingen in meer dan 20 domeinen, elk gebaseerd op echte tools, echte databases en meerdere geldige oplossingspaden. De moeilijkheid neemt structureel toe, niet door slimme prompttrucs. Cruciaal is dat ze de wereld niet saneren. Toolfouten, vage instructies, gedeeltelijke outputs en ruisfeedback worden opzettelijk geïnjecteerd. Ruis is geen bug. Het is het curriculum. Om de training stabiel te houden op deze schaal, breiden ze asynchrone RL (DORA) uit om lange-horizon, multi-turn interacties met tienduizenden gelijktijdige omgevingen aan te kunnen zonder in te storten. Tijdens de inferentietijd introduceren ze Heavy Thinking Mode. In plaats van één lange keten van gedachten, draait het model parallelle redeneringspaden en reflecteert het vervolgens over hen voordat het handelt. Dit verslaat consequent zelfconsistentie bij complexe, agentische taken. De resultaten spreken boekdelen. State-of-the-art prestaties op BrowseComp, τ²-Bench en VitaBench. Sterke wiskunde, codering en zoekresultaten. En het belangrijkste, veel minder degradatie onder ruisachtige omstandigheden. De echte boodschap is scherper dan welk benchmarknummer dan ook: De kwaliteit van redeneren is niet langer de bottleneck. Generalizatie is dat wel. En generalisatie komt niet van betere prompts of langere gedachten. Het komt van omgevingen die tegenwerken. Als we agents willen die buiten demo's werken, moeten we stoppen met het trainen van hen in schone, imaginaire werelden. Intelligentie wordt niet gesmeed waar alles goed gaat. Het wordt gesmeed waar dingen stukgaan. Paper: LongCat-Flash-Thinking-2601 Technisch Rapport Lees het volledige paper hier op:

Boven

Positie

Favorieten