Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Подивись 👌🏻 на це

Sanchit monga5 бер., 11:58
Всього за 48 годин у @RunAnywhereAI ми створили MetalRT: обігравши @Apple у їхній власній грі та забезпечивши НАЙШВИДШИЙ LLM-інференційний рушій на ринку Apple Silicon на сьогоднішній момент.
- 570 ток/с декодування @liquidai LFM 2.5-1.2B 4-біт
- 658 ток/с декодування @Alibaba_Qwen Qwen3-0.6B, 4-бітний
- 6,6 мс час до першого токена
- 1.19× швидше за власний MLX від Apple (ідентичні файли моделей)
- 1,67× швидше за llama.cpp в середньому
Ми розгромили Apple MLX, llama.cpp, uzu (від TryMirai) та Ollama на чотирьох різних 4-бітних моделях, включаючи оптимізований LFM2.5-1.2B на одному M4 Max.
З нетерпінням чекаю на цю гру!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

176
Справді вражаючий реліз гібридних крихітних моделей від команди Qwen, як завжди!
Люди питають, як вони порівнюються за швидкістю, затримкою та пам'яттю з LFM @liquidai для розгортання на пристрої?
Ось короткий опис Apple M3 Ultra:
> LFM2.5-1.2B на 52% швидший у декодуванні, ніж Qwen3.5-0.8B.
> LFM2-700M на 71% швидший за Qwen3.5-0.8B при декодуванні
> LFM2-2.6B має таку ж швидкість декодування, як Qwen3.5-2B
> LFM2-700M використовує на 46% менше пікової пам'яті, ніж Qwen3.5-0.8B
> LFM2-2.6B використовує на 21% менше пікової пам'яті, ніж Qwen3.5-2B
> попереднє заповнення LFM з тим самим розміром параметра зазвичай на 12% швидше, ніж Qwen3.5
Ми розробили серію LFM2 із нашим апаратним мета-AI підходом до дизайну з апаратним механізмом у циклі, що дозволяє нам знаходити найефективнішу архітектуру для конкретного процесора без втрати якості.
Цей тест проводиться на Apple M3 Ultra, уніфікованій пам'яті об'ємом 512 ГБ
Конфігурація:
> 512 токенів prompt, 128 токенів генерації,
> 5 випробувань у кожній конфігурації
> Фреймворк: MLX (mlx-lm / mlx-vlm)


Qwen2 бер., 21:18
🚀 Знайомство з серією малих моделей Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Більше інтелекту — менше обчислення.
Ці малі моделі побудовані на тій самій основі Qwen3.5 — нативний мультимодальний, покращена архітектура, масштабований RL:
• 0.8B / 2B → маленький, швидкий, чудовий для edge пристрою
• 4B → несподівано міцною мультимодальною основою для легких агентів
• 9B → компактний, але вже скорочує відставання з набагато більшими моделями
І так — ми також випускаємо базові моделі.
Ми сподіваємося, що це краще підтримуватиме дослідження, експерименти та реальні промислові інновації.
Обіймаючи обличчя:
ModelScope:

165
Найкращі
Рейтинг
Вибране
