Astaga... Makalah ini diam-diam menjelaskan mengapa sebagian besar model "penalaran" berantakan saat Anda mencabutnya dari tolok ukur yang bersih dan menjatuhkannya ke dunia nyata. Tim LongCat menangani pertanyaan yang terus dihindari lapangan: jika model saat ini sangat pandai dalam penalaran, mengapa mereka masih gagal dalam perilaku agen dasar setelah alat rusak, instruksi menjadi kabur, atau lingkungan menolak? Jawaban mereka tidak nyaman. Penalaran tidak gagal karena rantai pemikiran terlalu pendek. Itu gagal karena kita melatih berpikir tanpa konsekuensi. Makalah ini memperkenalkan LongCat-Flash-Thinking-2601, model Mixture-of-Experts 560B parameter yang dibangun di sekitar ide sederhana namun radikal: penalaran hanya menjadi dapat diandalkan ketika dipaksa untuk bertindak, mengamati kegagalan, dan beradaptasi di dalam lingkungan nyata. Alih-alih memperlakukan penalaran sebagai pembuatan teks, mereka membingkainya sebagai perulangan: Amati → merencanakan → bertindak → mendapatkan umpan balik → revisi. Pergeseran itu riak di mana-mana. Data bukan prompt statis lagi. Pelatihan bukanlah lintasan yang bersih. Evaluasi bukanlah jawaban tunggal. Salah satu kontribusi terpenting adalah penskalaan lingkungan. Penulis secara otomatis menghasilkan 10.000+ lingkungan yang dapat dieksekusi di 20+ domain, masing-masing didasarkan pada alat nyata, database nyata, dan beberapa jalur solusi yang valid. Kesulitan meningkat secara struktural, bukan dengan trik cepat yang cerdas. Yang terpenting, mereka tidak membersihkan dunia. Kegagalan alat, instruksi ambigu, output parsial, dan umpan balik yang berisik sengaja disuntikkan. Kebisingan bukanlah bug. Ini kurikulumnya. Untuk menjaga pelatihan tetap stabil pada skala ini, mereka memperluas RL asinkron (DORA) untuk menangani interaksi multi-putaran cakrawala panjang dengan puluhan ribu lingkungan bersamaan tanpa runtuh. Pada saat inferensi, mereka memperkenalkan Mode Berpikir Berat. Alih-alih satu rantai pemikiran yang panjang, model menjalankan jalur penalaran paralel dan kemudian merefleksikannya sebelum bertindak. Ini secara konsisten mengalahkan konsistensi diri pada tugas-tugas yang kompleks dan agen. Hasilnya berbicara dengan keras. Performa canggih di BrowseComp, τ²-Bench, dan VitaBench. Matematika, pengkodean, dan hasil pencarian yang kuat. Dan yang paling penting, degradasi jauh lebih sedikit dalam kondisi bising. Kesimpulan sebenarnya lebih tajam daripada angka patokan mana pun: Kualitas penalaran bukan lagi hambatan. Generalisasi adalah. Dan generalisasi tidak datang dari petunjuk yang lebih baik atau pemikiran yang lebih panjang. Itu berasal dari lingkungan yang mendorong kembali....