天哪……这篇论文悄悄地解释了为什么大多数“推理”模型在从干净的基准测试中拔掉插头并投入现实世界时会崩溃。 LongCat团队解决了一个该领域一直回避的问题:如果今天的模型在推理方面如此出色,为什么它们在工具失效、指令模糊或环境反击时仍然无法执行基本的代理行为? 他们的答案令人不安。推理失败并不是因为思维链太短,而是因为我们训练思考时没有后果。 这篇论文介绍了LongCat-Flash-Thinking-2601,一个560B参数的专家混合模型,围绕一个简单但激进的想法构建:推理只有在被迫行动、观察失败并在真实环境中适应时才会变得可靠。 他们不再将推理视为文本生成,而是将其框架化为一个循环: 观察 → 计划 → 行动 → 获取反馈 → 修订。 这种转变影响深远。数据不再是静态提示。训练不再是干净的轨迹。评估不再是单次回答。 最重要的贡献之一是环境扩展。作者自动生成了10,000多个可执行环境,涵盖20多个领域,每个环境都基于真实工具、真实数据库和多条有效解决路径。难度是结构性增加的,而不是通过巧妙的提示技巧。 至关重要的是,他们并没有净化世界。工具故障、模糊指令、部分输出和嘈杂反馈被故意注入。噪声不是一个错误,而是课程的一部分。 为了在这个规模上保持训练的稳定性,他们扩展了异步强化学习(DORA),以处理数万个并发环境中的长时间、多轮交互,而不会崩溃。 在推理时,他们引入了重思模式。模型不是运行一条长长的思维链,而是并行运行推理路径,然后在行动之前进行反思。这在复杂的代理任务中始终优于自我一致性。 结果非常显著。在BrowseComp、τ²-Bench和VitaBench上达到了最先进的性能。强大的数学、编码和搜索结果。最重要的是,在嘈杂条件下的退化程度大大降低。 真正的收获比任何基准数字都要尖锐: 推理质量不再是瓶颈。 而是泛化。 而泛化并不是来自更好的提示或更长的思考。它来自于反击的环境。...