热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
MIT刚刚发布了一篇论文,悄悄解释了为什么LLM推理会遇到瓶颈,以及如何突破这一瓶颈。
通常的说法是,模型在解决困难问题时失败是因为缺乏规模、数据或智能。
这篇论文提出了一个更为结构性的观点:模型停止改进是因为学习信号消失。一旦任务变得过于困难,成功率就会崩溃到接近零,强化学习没有任何可以优化的内容,推理也因此停滞。失败并不是认知上的,而是教学上的。
作者们提出了一个简单但激进的重新框架。与其问如何让模型解决更难的问题,他们问的是模型如何生成可以教会它们的问题。
他们的系统SOAR将一个预训练模型分为两个角色:一个学生尝试极其困难的目标任务,另一个教师生成新的训练问题。关键在于,教师并不因提出聪明或现实的问题而获得奖励。只有当学生在一组固定的真实评估问题上的表现改善时,教师才会获得奖励。没有改善就意味着零奖励。
这种激励重塑了一切。
教师学会生成中间的、过渡性的问题,这些问题恰好位于学生当前能力边界之内。这些问题并不是目标任务的简化版本,令人惊讶的是,它们甚至不需要正确的解决方案。
重要的是,它们的结构迫使学生练习正确类型的推理,即使在直接监督失败时,也能让梯度信号出现。
实验结果清楚地表明了这一点。在模型从零成功开始且标准强化学习完全停滞的基准测试中,SOAR打破了僵局,稳步提高了性能。
模型不是通过更努力地思考来逃脱可学习性的边缘,而是通过为自己构建一个更好的学习环境。
更深层的含义令人不安。许多所谓的“推理限制”可能根本不是智能的限制。它们是训练设置的产物,这些设置假设世界提供可学习的问题是免费的。
这篇论文表明,如果模型能够塑造自己的课程,推理平台就变成了工程问题,而不是根本障碍。
不需要新的架构,不需要额外的人类数据,不需要更大的模型。只需改变我们奖励的内容:学习进步而不是答案。

热门
排行
收藏
