Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ramin Hasani

Справді вражаючий реліз гібридних крихітних моделей від команди Qwen, як завжди! Люди питають, як вони порівнюються за швидкістю, затримкою та пам'яттю з LFM @liquidai для розгортання на пристрої? Ось короткий опис Apple M3 Ultra: > LFM2.5-1.2B на 52% швидший у декодуванні, ніж Qwen3.5-0.8B. > LFM2-700M на 71% швидший за Qwen3.5-0.8B при декодуванні > LFM2-2.6B має таку ж швидкість декодування, як Qwen3.5-2B > LFM2-700M використовує на 46% менше пікової пам'яті, ніж Qwen3.5-0.8B > LFM2-2.6B використовує на 21% менше пікової пам'яті, ніж Qwen3.5-2B > попереднє заповнення LFM з тим самим розміром параметра зазвичай на 12% швидше, ніж Qwen3.5 Ми розробили серію LFM2 із нашим апаратним мета-AI підходом до дизайну з апаратним механізмом у циклі, що дозволяє нам знаходити найефективнішу архітектуру для конкретного процесора без втрати якості. Цей тест проводиться на Apple M3 Ultra, уніфікованій пам'яті об'ємом 512 ГБ Конфігурація: > 512 токенів prompt, 128 токенів генерації, > 5 випробувань у кожній конфігурації > Фреймворк: MLX (mlx-lm / mlx-vlm)

Найкращі

Рейтинг

Вибране