一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

天哪……这篇论文悄悄地解释了为什么大多数“推理”模型在从干净的基准测试中拔掉插头并投入现实世界时会崩溃。 LongCat团队解决了一个该领域一直回避的问题：如果今天的模型在推理方面如此出色，为什么它们在工具失效、指令模糊或环境反击时仍然无法执行基本的代理行为？他们的答案令人不安。推理失败并不是因为思维链太短，而是因为我们训练思考时没有后果。这篇论文介绍了LongCat-Flash-Thinking-2601，一个560B参数的专家混合模型，围绕一个简单但激进的想法构建：推理只有在被迫行动、观察失败并在真实环境中适应时才会变得可靠。他们不再将推理视为文本生成，而是将其框架化为一个循环：观察 → 计划 → 行动 → 获取反馈 → 修订。这种转变影响深远。数据不再是静态提示。训练不再是干净的轨迹。评估不再是单次回答。最重要的贡献之一是环境扩展。作者自动生成了10,000多个可执行环境，涵盖20多个领域，每个环境都基于真实工具、真实数据库和多条有效解决路径。难度是结构性增加的，而不是通过巧妙的提示技巧。至关重要的是，他们并没有净化世界。工具故障、模糊指令、部分输出和嘈杂反馈被故意注入。噪声不是一个错误，而是课程的一部分。为了在这个规模上保持训练的稳定性，他们扩展了异步强化学习（DORA），以处理数万个并发环境中的长时间、多轮交互，而不会崩溃。在推理时，他们引入了重思模式。模型不是运行一条长长的思维链，而是并行运行推理路径，然后在行动之前进行反思。这在复杂的代理任务中始终优于自我一致性。结果非常显著。在BrowseComp、τ²-Bench和VitaBench上达到了最先进的性能。强大的数学、编码和搜索结果。最重要的是，在嘈杂条件下的退化程度大大降低。真正的收获比任何基准数字都要尖锐：推理质量不再是瓶颈。而是泛化。而泛化并不是来自更好的提示或更长的思考。它来自于反击的环境。...