Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
посмотри на это 👌🏻

Sanchit monga5 мар., 11:58
Всего за 48 часов в @RunAnywhereAI мы создали MetalRT: обогнав @Apple в их же игре и предоставив САМЫЙ БЫСТРЫЙ движок вывода LLM на рынке для Apple Silicon прямо сейчас.
- 570 ток/с декодирование @liquidai LFM 2.5-1.2B 4-бит
- 658 ток/с декодирование @Alibaba_Qwen Qwen3-0.6B, 4-бит
- 6.6 мс время до первого токена
- 1.19× быстрее, чем собственный MLX от Apple (идентичные файлы модели)
- 1.67× быстрее, чем llama.cpp в среднем
Мы обошли Apple MLX, llama.cpp, uzu (от TryMirai) и Ollama по четырем различным 4-битным моделям, включая оптимизированную для устройства LFM2.5-1.2B на одном M4 Max.
В восторге от этого!

111
Действительно впечатляющий релиз гибридных мини-моделей от команды Qwen, как всегда!
Люди спрашивают, как они сравниваются по скорости, задержке и памяти с LFMs от @liquidai для развертывания на устройствах?
Вот краткий профиль на Apple M3 Ultra:
> LFM2.5-1.2B на 52% быстрее в декодировании, чем Qwen3.5-0.8B.
> LFM2-700M на 71% быстрее, чем Qwen3.5-0.8B в декодировании
> LFM2-2.6B имеет такую же скорость, как Qwen3.5-2B в декодировании
> LFM2-700M использует на 46% меньше пиковой памяти, чем Qwen3.5-0.8B
> LFM2-2.6B использует на 21% меньше пиковой памяти, чем Qwen3.5-2B
> lfms с одинаковым размером параметров в целом на 12% быстрее, чем Qwen3.5
Мы разработали серию LFM2 с нашим подходом к проектированию мета ИИ с аппаратным обеспечением в контуре, который позволяет нам находить наиболее эффективную архитектуру для данного процессора без ущерба для качества.
Этот тест проведен на Apple M3 Ultra, 512 ГБ унифицированной памяти
Конфигурация:
> 512 токенов подсказки, 128 токенов генерации,
> 5 испытаний на конфигурацию
> Фреймворк: MLX (mlx-lm / mlx-vlm)


Qwen2 мар., 21:18
🚀 Представляем серию малых моделей Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Больше интеллекта, меньше вычислений.
Эти малые модели построены на той же основе Qwen3.5 — нативная мультимодальность, улучшенная архитектура, масштабируемое RL:
• 0.8B / 2B → крошечные, быстрые, отличные для устройств на краю
• 4B → удивительно сильная мультимодальная база для легковесных агентов
• 9B → компактные, но уже сокращают разрыв с гораздо большими моделями
И да — мы также выпускаем базовые модели.
Надеемся, это лучше поддержит исследования, эксперименты и инновации в реальной промышленности.
Hugging Face:
ModelScope:

154
Топ
Рейтинг
Избранное
