很高兴分享最新的 Olmo 模型:Olmo Hybrid。这是一个具有 3:1 比例的带有门控 delta 网络(GDN)层的模型,采用全注意力机制。它遵循了许多其他发展,如 Qwen 3.5 和 Kimi Linear。现在发布一个完全开放的模型是个绝佳时机,这样人们可以研究这些架构变化如何影响整个堆栈。 就我个人而言,我在进行后训练工作时学到了很多。即使预训练的数据是相同的,后训练却是非常不同的!特别是,这些新架构的 OSS 工具非常有限。新架构的速度远远慢于标准变换器或像 DeepSeek MoEs 这样的流行模型。这是我们可以共同努力的工作,以继续推动高效开放模型的前沿。 这项工作由 @lambdaviking @tyleraromero 和其他人主导。我在进行后训练工作中扮演了一个较小的角色,这是一个超级有趣的项目! 我写了一篇博客文章,解释了为什么这很重要,以及几年前 Mamba 非常流行时混合模型为何不起作用。此外,这篇论文是现代深度学习/语言建模扩展理论的一个很好的入门点。享受并发送反馈!
@interconnectsai 这个项目的大部分计算资源由 @LambdaAPI 提供。没有它,这个 Olmo Hybrid 就不会存在,感谢对开放社区的支持。
136