热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
天哪……这篇论文悄悄地解释了为什么大多数“推理”模型在从干净的基准测试中拔掉插头并投入现实世界时会崩溃。
LongCat团队解决了一个该领域一直回避的问题:如果今天的模型在推理方面如此出色,为什么它们在工具失效、指令模糊或环境反击时仍然无法执行基本的代理行为?
他们的答案令人不安。推理失败并不是因为思维链太短,而是因为我们训练思考时没有后果。
这篇论文介绍了LongCat-Flash-Thinking-2601,一个560B参数的专家混合模型,围绕一个简单但激进的想法构建:推理只有在被迫行动、观察失败并在真实环境中适应时才会变得可靠。
他们不再将推理视为文本生成,而是将其框架化为一个循环:
观察 → 计划 → 行动 → 获取反馈 → 修订。
这种转变影响深远。数据不再是静态提示。训练不再是干净的轨迹。评估不再是单次回答。
最重要的贡献之一是环境扩展。作者自动生成了10,000多个可执行环境,涵盖20多个领域,每个环境都基于真实工具、真实数据库和多条有效解决路径。难度是结构性增加的,而不是通过巧妙的提示技巧。
至关重要的是,他们并没有净化世界。工具故障、模糊指令、部分输出和嘈杂反馈被故意注入。噪声不是一个错误,而是课程的一部分。
为了在这个规模上保持训练的稳定性,他们扩展了异步强化学习(DORA),以处理数万个并发环境中的长时间、多轮交互,而不会崩溃。
在推理时,他们引入了重思模式。模型不是运行一条长长的思维链,而是并行运行推理路径,然后在行动之前进行反思。这在复杂的代理任务中始终优于自我一致性。
结果非常显著。在BrowseComp、τ²-Bench和VitaBench上达到了最先进的性能。强大的数学、编码和搜索结果。最重要的是,在嘈杂条件下的退化程度大大降低。
真正的收获比任何基准数字都要尖锐:
推理质量不再是瓶颈。
而是泛化。
而泛化并不是来自更好的提示或更长的思考。它来自于反击的环境。...

热门
排行
收藏
