Herregud... Denna artikel förklarar tyst varför de flesta "resonememangsmodeller" faller isär i samma ögonblick som du kopplar ur dem från rena benchmarks och släpper in dem i verkligheten. LongCat-teamet tar sig an en fråga som fältet ständigt undviker: om dagens modeller är så bra på att resonera, varför misslyckas de fortfarande med grundläggande agentbeteende när verktygen går sönder, instruktionerna blir otydliga eller miljöerna trycker tillbaka? Deras svar är obekvämt. Resonemanget misslyckas inte för att tankekedjor är för korta. Det misslyckas eftersom vi tränade tänkande utan konsekvenser. Artikeln introducerar LongCat-Flash-Thinking-2601, en 560B-parameter Mixture-of-Experts-modell byggd kring en enkel men radikal idé: resonemang blir bara tillförlitligt när det tvingas agera, observera misslyckanden och anpassa sig i verkliga miljöer. Istället för att behandla resonemang som textgenerering, ramar de in det som en loop: Observera → planera → agera → få feedback → revidera. Den förändringen sprider sig överallt. Data är inte längre statiska promptar. Träning är inte rena banor. Utvärdering är inte enkla svar. En av de viktigaste bidragen är miljöskalning. Författarna genererar automatiskt 10 000+ exekverbara miljöer över 20+ domäner, var och en grundad i verkliga verktyg, verkliga databaser och flera giltiga lösningsvägar. Svårighetsgraden ökar strukturellt, inte genom smarta prompttrick. Avgörande är att de inte sanerar världen. Verktygsfel, tvetydiga instruktioner, partiella utgångar och brusig återkoppling injiceras medvetet. Ljud är ingen bugg. Det är läroplanen. För att hålla träningen stabil i denna skala förlänger de asynkron RL (DORA) för att hantera långhorisontella, flervarvsinteraktioner med tiotusentals samtidiga miljöer utan att kollapsa. Vid inferenstidpunkten introducerar de Heavy Thinking Mode. Istället för en lång tankekedja kör modellen parallella resonemangsvägar och reflekterar sedan över dem innan den agerar. Detta slår konsekvent självkonsekvens på komplexa, agentiska uppgifter. Resultaten talar högt. Toppmodern prestanda på BrowseComp, τ²-Bench och VitaBench. Stark matematik, kodning och sökresultat. Och viktigast av allt, mycket mindre nedbrytning under bullriga förhållanden. Den verkliga slutsatsen är skarpare än något riktmärke: Att resonera och kvaliteten är inte längre flaskhalsen. Generalisering är det. Och generalisering kommer inte från bättre prompts eller längre tankar. Det kommer från miljöer som gör motstånd....