Всего за 48 часов в @RunAnywhereAI мы создали MetalRT: обогнав @Apple в их же игре и предоставив САМЫЙ БЫСТРЫЙ движок вывода LLM на рынке для Apple Silicon прямо сейчас. - 570 ток/с декодирование @liquidai LFM 2.5-1.2B 4-бит - 658 ток/с декодирование @Alibaba_Qwen Qwen3-0.6B, 4-бит - 6.6 мс время до первого токена - 1.19× быстрее, чем собственный MLX от Apple (идентичные файлы модели) - 1.67× быстрее, чем llama.cpp в среднем Мы обошли Apple MLX, llama.cpp, uzu (от TryMirai) и Ollama по четырем различным 4-битным моделям, включая оптимизированную для устройства LFM2.5-1.2B на одном M4 Max. В восторге от этого!