Święty Boże... Ten dokument cicho wyjaśnia, dlaczego większość modeli „rozumowania” rozpada się w momencie, gdy odłączysz je od czystych benchmarków i wrzucisz do rzeczywistego świata. Zespół LongCat stawia pytanie, którego dziedzina ciągle unika: jeśli dzisiejsze modele są tak dobre w rozumowaniu, dlaczego wciąż zawodzą w podstawowym zachowaniu agenta, gdy narzędzia zawodzą, instrukcje stają się niejasne lub środowiska stawiają opór? Ich odpowiedź jest niewygodna. Rozumowanie nie zawodzi, ponieważ łańcuchy myśli są zbyt krótkie. Zawodzi, ponieważ trenowaliśmy myślenie bez konsekwencji. Dokument wprowadza LongCat-Flash-Thinking-2601, model Mixture-of-Experts o 560 miliardach parametrów, zbudowany wokół prostej, ale radykalnej idei: rozumowanie staje się wiarygodne tylko wtedy, gdy jest zmuszone do działania, obserwowania porażek i dostosowywania się w rzeczywistych środowiskach. Zamiast traktować rozumowanie jako generowanie tekstu, przedstawiają je jako pętlę: obserwuj → planuj → działaj → uzyskaj informacje zwrotne → popraw. Ta zmiana ma wpływ wszędzie. Dane nie są już statycznymi podpowiedziami. Szkolenie nie jest czystymi trajektoriami. Ocena nie jest jednorazowymi odpowiedziami. Jednym z najważniejszych wkładów jest skalowanie środowiska. Autorzy automatycznie generują ponad 10 000 wykonalnych środowisk w ponad 20 dziedzinach, każde oparte na rzeczywistych narzędziach, rzeczywistych bazach danych i wielu ważnych ścieżkach rozwiązania. Trudność wzrasta strukturalnie, a nie dzięki sprytnym sztuczkom z podpowiedziami. Kluczowe jest to, że nie dezynfekują świata. Awaria narzędzi, niejednoznaczne instrukcje, częściowe wyniki i hałaśliwe informacje zwrotne są celowo wprowadzane. Hałas nie jest błędem. To jest program nauczania. Aby utrzymać stabilność szkolenia na tym poziomie, rozszerzają asynchroniczne RL (DORA), aby radzić sobie z interakcjami długohoryzontowymi i wielokrotnymi z dziesiątkami tysięcy równoczesnych środowisk bez załamania. W czasie wnioskowania wprowadzają Tryb Ciężkiego Myślenia. Zamiast jednego długiego łańcucha myśli, model uruchamia równoległe ścieżki rozumowania, a następnie reflektuje nad nimi przed działaniem. To konsekwentnie przewyższa samokonsystencję w złożonych, agentowych zadaniach. Wyniki mówią głośno. Najlepsza w swojej klasie wydajność w BrowseComp, τ²-Bench i VitaBench. Silne wyniki w matematyce, kodowaniu i wyszukiwaniu. A co najważniejsze, znacznie mniejsze pogorszenie w trudnych warunkach. Prawdziwa lekcja jest ostrzejsza niż jakikolwiek numer benchmarku: Jakość rozumowania nie jest już wąskim gardłem. Generalizacja jest. A generalizacja nie pochodzi z lepszych podpowiedzi ani dłuższych myśli. Pochodzi z środowisk, które stawiają opór....