天啊……這篇論文靜靜地解釋了為什麼大多數「推理」模型在從乾淨的基準測試中拔掉插頭並投入現實世界時會崩潰。 LongCat 團隊探討了一個該領域一直迴避的問題:如果今天的模型在推理方面如此出色,為什麼它們在工具失效、指令模糊或環境反擊時仍然無法執行基本的代理行為? 他們的答案令人不安。推理失敗並不是因為思考鏈太短,而是因為我們訓練思考時沒有後果。 這篇論文介紹了 LongCat-Flash-Thinking-2601,一個擁有 560B 參數的專家混合模型,圍繞一個簡單但激進的想法構建:推理只有在被迫行動、觀察失敗並在現實環境中適應時才會變得可靠。 他們不再將推理視為文本生成,而是將其框架化為一個循環: 觀察 → 計劃 → 行動 → 獲取反饋 → 修訂。 這一轉變影響深遠。數據不再是靜態提示。訓練不再是乾淨的軌跡。評估不再是單次回答。 最重要的貢獻之一是環境擴展。作者自動生成了 10,000 多個可執行環境,涵蓋 20 多個領域,每個環境都基於真實工具、真實數據庫和多條有效解決路徑。難度是結構性增加的,而不是通過巧妙的提示技巧。 關鍵是,他們不會對世界進行消毒。工具失效、模糊指令、部分輸出和嘈雜反饋都是故意注入的。噪音不是錯誤,而是課程的一部分。 為了在這個規模上保持訓練穩定,他們擴展了異步強化學習(DORA),以處理長期、多回合的互動,並在數萬個並發環境中運行而不崩潰。 在推理時,他們引入了重思模式。模型不再是一條長長的思考鏈,而是運行平行的推理路徑,然後在行動之前進行反思。這在複雜的代理任務中始終超越自我一致性。 結果響亮。BrowseComp、τ²-Bench 和 VitaBench 上的最先進性能。強大的數學、編碼和搜索結果。最重要的是,在嘈雜條件下的退化程度大大降低。 真正的收穫比任何基準數字都要尖銳: 推理質量不再是瓶頸。 而是泛化。 而泛化並不是來自更好的提示或更長的思考。它來自於能夠反擊的環境。...