一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

天啊……這篇論文靜靜地解釋了為什麼大多數「推理」模型在從乾淨的基準測試中拔掉插頭並投入現實世界時會崩潰。 LongCat 團隊探討了一個該領域一直迴避的問題：如果今天的模型在推理方面如此出色，為什麼它們在工具失效、指令模糊或環境反擊時仍然無法執行基本的代理行為？他們的答案令人不安。推理失敗並不是因為思考鏈太短，而是因為我們訓練思考時沒有後果。這篇論文介紹了 LongCat-Flash-Thinking-2601，一個擁有 560B 參數的專家混合模型，圍繞一個簡單但激進的想法構建：推理只有在被迫行動、觀察失敗並在現實環境中適應時才會變得可靠。他們不再將推理視為文本生成，而是將其框架化為一個循環：觀察 → 計劃 → 行動 → 獲取反饋 → 修訂。這一轉變影響深遠。數據不再是靜態提示。訓練不再是乾淨的軌跡。評估不再是單次回答。最重要的貢獻之一是環境擴展。作者自動生成了 10,000 多個可執行環境，涵蓋 20 多個領域，每個環境都基於真實工具、真實數據庫和多條有效解決路徑。難度是結構性增加的，而不是通過巧妙的提示技巧。關鍵是，他們不會對世界進行消毒。工具失效、模糊指令、部分輸出和嘈雜反饋都是故意注入的。噪音不是錯誤，而是課程的一部分。為了在這個規模上保持訓練穩定，他們擴展了異步強化學習（DORA），以處理長期、多回合的互動，並在數萬個並發環境中運行而不崩潰。在推理時，他們引入了重思模式。模型不再是一條長長的思考鏈，而是運行平行的推理路徑，然後在行動之前進行反思。這在複雜的代理任務中始終超越自我一致性。結果響亮。BrowseComp、τ²-Bench 和 VitaBench 上的最先進性能。強大的數學、編碼和搜索結果。最重要的是，在嘈雜條件下的退化程度大大降低。真正的收穫比任何基準數字都要尖銳：推理質量不再是瓶頸。而是泛化。而泛化並不是來自更好的提示或更長的思考。它來自於能夠反擊的環境。...