熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
很高興分享最新的 Olmo 模型:Olmo Hybrid。這是一個具有 3:1 比例的 gated delta net (GDN) 層的模型,並且具備完整的注意力機制。它跟隨了許多其他的發展,如 Qwen 3.5 和 Kimi Linear。現在發布一個完全開放的模型是個絕佳時機,讓人們可以研究這些架構變化如何影響整個堆疊。
就我個人而言,我在進行後訓練工作時學到了很多。即使預訓練的數據是相同的,後訓練卻是非常不同的!特別是,這些新架構的 OSS 工具真的很有限。新架構的速度比標準的變壓器或像 DeepSeek MoEs 這樣的流行模型要慢得多。這是我們可以一起做的工作,以持續推進高效、開放模型的前沿。
這項工作由 @lambdaviking @tyleraromero 和其他人主導。我在進行後訓練工作中扮演了較小的角色,這是一個非常有趣的項目!
我寫了一篇博客文章,解釋了這為什麼重要,以及幾年前 Mamba 非常流行時,混合模型為什麼不奏效。此外,這篇論文是現代深度學習/語言建模擴展理論的絕佳入門點。享受並發送反饋!

@interconnectsai 這個項目的大部分計算資源是由 @LambdaAPI 提供的。沒有它,這個 Olmo Hybrid 就不會存在,感謝對開放社區的支持。
133
熱門
排行
收藏
