Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Cieszę się, że mogę podzielić się najnowszym modelem Olmo: Olmo Hybrid. To model z warstwami gated delta net (GDN) w proporcji 3:1 z pełną uwagą. Podąża za wieloma innymi rozwojami, takimi jak Qwen 3.5 i Kimi Linear. To niesamowity moment na wydanie w pełni otwartego modelu, aby ludzie mogli badać, jak te zmiany architektoniczne wpływają na cały stos. Osobiście wiele się nauczyłem, pracując nad post-treningiem. Nawet przy identycznych danych do pretreningu, post-trening jest zupełnie inny! W szczególności narzędzia OSS dla tych nowych architektur są naprawdę ograniczone. Nowe architektury są znacznie wolniejsze niż standardowe transformatory czy popularne modele, takie jak DeepSeek MoEs. To praca, którą możemy wykonać razem, aby nadal przesuwać granice efektywnych, otwartych modeli. Pracę tę prowadził @lambdaviking @tyleraromero i inni. Miałem mniejszą rolę w realizacji post-treningu, super fajny projekt! Napisałem wpis na blogu, który wyjaśnia, dlaczego to ma znaczenie i dlaczego modele hybrydowe nie działały kilka lat temu, gdy Mamba była bardzo popularna. Ponadto ten artykuł jest świetnym punktem wyjścia do nowoczesnej teorii skalowania głębokiego uczenia się / modelowania języka. Miłej lektury i czekam na opinie!

@interconnectsai Większość obliczeń dla tego projektu została dostarczona przez @LambdaAPI. Bez tego, ten Olmo Hybrid by nie istniał, dziękujemy za wsparcie otwartej społeczności.

114

Najlepsze

Ranking

Ulubione