Ух ты, @sanchitmonga22 команда RunAnywhereAI за 48 часов создала MetalRT, который поднял скорость декодирования LLM на Apple Silicon на новый уровень. На M4 Max с тем же 4-битным моделью Qwen3-0.6B достигает 658 ток/с, LFM 2.5-1.2B 570 ток/с, первый токен всего за 6.6 мс. В сравнении с тем же файлом, обгоняет собственный MLX от Apple на 19%, в среднем на 67% быстрее llama.cpp, про uzu и Ollama и говорить не стоит, они все в отстающих. Apple всегда говорит о приоритете локальных решений, но потенциал оборудования на самом деле ограничен различными фреймворками, что фактически его запечатывает. MetalRT напрямую работает с Metal API, убирая накладные расходы Python-уровня и абстракций, специально разработан для унифицированной памяти + GPU, что и дало эту выдающуюся производительность. Истинная ценность локальных моделей никогда не была в том, чтобы "просто работать", а в том, чтобы работать достаточно быстро, экономично и конфиденциально, чтобы действительно заменить облачные решения. 6.6 мс для первого токена означает, что чат, голос, дополнение кода и вызов JSON-агента практически без задержек; высокая скорость токенов позволяет поддерживать длинный контекст и параллельную работу с несколькими инструментами без зависаний. Плюс нулевое подключение к сети, ноль подписок, данные не покидают устройство — вот как должен выглядеть локальный AI на уровне производительности. Быстрота нужна не для того, чтобы хвастаться цифрами токенов в секунду, а чтобы маленькие модели на устройствах Apple могли напрямую обойти облачные большие модели по качеству отклика. AI на устройствах в экосистеме Apple должен работать именно так, и теперь это действительно начинает набирать скорость. Apple действительно сидит дома, а сообщество с открытым исходным кодом активно строит, открывая ящик Пандоры, локальный AI слишком удобен, только надеюсь, что появятся более интеллектуальные модели.