一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

MIT刚刚发布了一篇论文，悄悄解释了为什么LLM推理会遇到瓶颈，以及如何突破这一瓶颈。通常的说法是，模型在解决困难问题时失败是因为缺乏规模、数据或智能。这篇论文提出了一个更为结构性的观点：模型停止改进是因为学习信号消失。一旦任务变得过于困难，成功率就会崩溃到接近零，强化学习没有任何可以优化的内容，推理也因此停滞。失败并不是认知上的，而是教学上的。作者们提出了一个简单但激进的重新框架。与其问如何让模型解决更难的问题，他们问的是模型如何生成可以教会它们的问题。他们的系统SOAR将一个预训练模型分为两个角色：一个学生尝试极其困难的目标任务，另一个教师生成新的训练问题。关键在于，教师并不因提出聪明或现实的问题而获得奖励。只有当学生在一组固定的真实评估问题上的表现改善时，教师才会获得奖励。没有改善就意味着零奖励。这种激励重塑了一切。教师学会生成中间的、过渡性的问题，这些问题恰好位于学生当前能力边界之内。这些问题并不是目标任务的简化版本，令人惊讶的是，它们甚至不需要正确的解决方案。重要的是，它们的结构迫使学生练习正确类型的推理，即使在直接监督失败时，也能让梯度信号出现。实验结果清楚地表明了这一点。在模型从零成功开始且标准强化学习完全停滞的基准测试中，SOAR打破了僵局，稳步提高了性能。模型不是通过更努力地思考来逃脱可学习性的边缘，而是通过为自己构建一个更好的学习环境。更深层的含义令人不安。许多所谓的“推理限制”可能根本不是智能的限制。它们是训练设置的产物，这些设置假设世界提供可学习的问题是免费的。这篇论文表明，如果模型能够塑造自己的课程，推理平台就变成了工程问题，而不是根本障碍。不需要新的架构，不需要额外的人类数据，不需要更大的模型。只需改变我们奖励的内容：学习进步而不是答案。