Caramba, @sanchitmonga22 equipe da RunAnywhereAI criou o MetalRT em 48 horas, evaporando diretamente a velocidade de decodificação dos LLMs no Apple Silicon a um novo patamar, usando o mesmo modelo de 4 bits no M4 Max, Qwen3-0.6B rodando a 658 tok/s, LFM 2.5-1.2B 570 tok/s, e o primeiro token leva apenas 6,6ms. Comparado ao mesmo documento, o MLX da Apple é de 19%, a média de llama.cpp martelo é 67%, sem contar Uzu e Ollama, que estão atrás em todos os aspectos. A Apple Intelligence da Apple sempre declarou prioridade local, mas o potencial de hardware é na verdade desperdiçado por várias restrições do framework, o que equivale a ser selado; o MetalRT é atacar diretamente a API Metal, eliminar a sobrecarga bagunçada da camada Python e da camada de abstração, e adaptá-la para memória unificada + GPU para extrair essa onda de desempenho extremo. O verdadeiro valor do modelo local nunca é "apenas rodar se puder", mas ele roda rápido o suficiente, econômico e privado o suficiente para realmente substituir a nuvem. 6,6ms primeiro token significa chat, voz, código suplemento e chamada Agent JSON sem demora; O alto tok/s pode ampliar o contexto, paralelismo com múltiplas ferramentas e evitar bloqueios. Somado a zero rede de rede, nenhuma assinatura e dados nunca saindo do dispositivo, é assim que a IA local em nível de produtividade deveria ser. Mais rápido não é mostrar os números tok/s, mas deixar o modelo pequeno superar diretamente a experiência de resposta do modelo grande em nuvem nos dispositivos Apple. A IA da Apple no dispositivo deveria ser jogada assim, e agora realmente começou a acelerar. A Apple está realmente em casa, a comunidade open source está construindo para abrir a caixa de Pandora, a IA local está confortável demais, só espero que modelos mais inteligentes apareçam.