一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

很高興分享最新的 Olmo 模型：Olmo Hybrid。這是一個具有 3:1 比例的 gated delta net (GDN) 層的模型，並且具備完整的注意力機制。它跟隨了許多其他的發展，如 Qwen 3.5 和 Kimi Linear。現在發布一個完全開放的模型是個絕佳時機，讓人們可以研究這些架構變化如何影響整個堆疊。就我個人而言，我在進行後訓練工作時學到了很多。即使預訓練的數據是相同的，後訓練卻是非常不同的！特別是，這些新架構的 OSS 工具真的很有限。新架構的速度比標準的變壓器或像 DeepSeek MoEs 這樣的流行模型要慢得多。這是我們可以一起做的工作，以持續推進高效、開放模型的前沿。這項工作由 @lambdaviking @tyleraromero 和其他人主導。我在進行後訓練工作中扮演了較小的角色，這是一個非常有趣的項目！我寫了一篇博客文章，解釋了這為什麼重要，以及幾年前 Mamba 非常流行時，混合模型為什麼不奏效。此外，這篇論文是現代深度學習/語言建模擴展理論的絕佳入門點。享受並發送反饋！

@interconnectsai 這個項目的大部分計算資源是由 @LambdaAPI 提供的。沒有它，這個 Olmo Hybrid 就不會存在，感謝對開放社區的支持。

133