Heilige shit... Dit paper legt stilletjes uit waarom de meeste "redenerings"-modellen in elkaar storten op het moment dat je ze loskoppelt van schone benchmarks en in de echte wereld plaatst. Het LongCat-team pakt een vraag aan die het veld blijft ontwijken: als de modellen van vandaag zo goed zijn in redeneren, waarom falen ze dan nog steeds bij basaal agentgedrag zodra tools falen, instructies vaag worden of omgevingen tegenwerken? Hun antwoord is ongemakkelijk. Redeneren faalt niet omdat de denkprocessen te kort zijn. Het faalt omdat we denken hebben getraind zonder gevolgen. Het paper introduceert LongCat-Flash-Thinking-2601, een 560B-parameter Mixture-of-Experts-model dat is gebouwd rond een eenvoudig maar radicaal idee: redeneren wordt pas betrouwbaar wanneer het gedwongen wordt om te handelen, falen waar te nemen en zich aan te passen in echte omgevingen. In plaats van redeneren te behandelen als tekstgeneratie, kaderen ze het als een lus: observeer → plan → handel → krijg feedback → herzie. Die verschuiving heeft overal gevolgen. Gegevens zijn niet langer statische prompts. Training is geen schone trajecten meer. Evaluatie is geen eenmalige antwoorden meer. Een van de belangrijkste bijdragen is omgevingsschaling. De auteurs genereren automatisch 10.000+ uitvoerbare omgevingen in meer dan 20 domeinen, elk gebaseerd op echte tools, echte databases en meerdere geldige oplossingspaden. De moeilijkheid neemt structureel toe, niet door slimme prompttrucs. Cruciaal is dat ze de wereld niet saneren. Toolfouten, vage instructies, gedeeltelijke outputs en ruisfeedback worden opzettelijk geïnjecteerd. Ruis is geen bug. Het is het curriculum. Om de training stabiel te houden op deze schaal, breiden ze asynchrone RL (DORA) uit om lange-horizon, multi-turn interacties met tienduizenden gelijktijdige omgevingen aan te kunnen zonder in te storten. Tijdens de inferentietijd introduceren ze Heavy Thinking Mode. In plaats van één lange keten van gedachten, draait het model parallelle redeneringspaden en reflecteert het vervolgens over hen voordat het handelt. Dit verslaat consequent zelfconsistentie bij complexe, agentische taken. De resultaten spreken boekdelen. State-of-the-art prestaties op BrowseComp, τ²-Bench en VitaBench. Sterke wiskunde, codering en zoekresultaten. En het belangrijkste, veel minder degradatie onder ruisachtige omstandigheden. De echte boodschap is scherper dan welk benchmarknummer dan ook: De kwaliteit van redeneren is niet langer de bottleneck. Generalizatie is dat wel. En generalisatie komt niet van betere prompts of langere gedachten. Het komt van omgevingen die tegenwerken....