一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

很高兴分享最新的 Olmo 模型：Olmo Hybrid。这是一个具有 3:1 比例的带有门控 delta 网络（GDN）层的模型，采用全注意力机制。它遵循了许多其他发展，如 Qwen 3.5 和 Kimi Linear。现在发布一个完全开放的模型是个绝佳时机，这样人们可以研究这些架构变化如何影响整个堆栈。就我个人而言，我在进行后训练工作时学到了很多。即使预训练的数据是相同的，后训练却是非常不同的！特别是，这些新架构的 OSS 工具非常有限。新架构的速度远远慢于标准变换器或像 DeepSeek MoEs 这样的流行模型。这是我们可以共同努力的工作，以继续推动高效开放模型的前沿。这项工作由 @lambdaviking @tyleraromero 和其他人主导。我在进行后训练工作中扮演了一个较小的角色，这是一个超级有趣的项目！我写了一篇博客文章，解释了为什么这很重要，以及几年前 Mamba 非常流行时混合模型为何不起作用。此外，这篇论文是现代深度学习/语言建模扩展理论的一个很好的入门点。享受并发送反馈！

@interconnectsai 这个项目的大部分计算资源由 @LambdaAPI 提供。没有它，这个 Olmo Hybrid 就不会存在，感谢对开放社区的支持。

136