很高興分享最新的 Olmo 模型:Olmo Hybrid。這是一個具有 3:1 比例的 gated delta net (GDN) 層的模型,並且具備完整的注意力機制。它跟隨了許多其他的發展,如 Qwen 3.5 和 Kimi Linear。現在發布一個完全開放的模型是個絕佳時機,讓人們可以研究這些架構變化如何影響整個堆疊。 就我個人而言,我在進行後訓練工作時學到了很多。即使預訓練的數據是相同的,後訓練卻是非常不同的!特別是,這些新架構的 OSS 工具真的很有限。新架構的速度比標準的變壓器或像 DeepSeek MoEs 這樣的流行模型要慢得多。這是我們可以一起做的工作,以持續推進高效、開放模型的前沿。 這項工作由 @lambdaviking @tyleraromero 和其他人主導。我在進行後訓練工作中扮演了較小的角色,這是一個非常有趣的項目! 我寫了一篇博客文章,解釋了這為什麼重要,以及幾年前 Mamba 非常流行時,混合模型為什麼不奏效。此外,這篇論文是現代深度學習/語言建模擴展理論的絕佳入門點。享受並發送反饋!
@interconnectsai 這個項目的大部分計算資源是由 @LambdaAPI 提供的。沒有它,這個 Olmo Hybrid 就不會存在,感謝對開放社區的支持。
133