Uau, @sanchitmonga22 A equipe RunAnywhereAI conseguiu criar o MetalRT em 48 horas, elevando a velocidade de decodificação de LLM no Apple Silicon a um novo patamar. No M4 Max, com o mesmo modelo de 4 bits, o Qwen3-0.6B alcançou 658 tok/s, e o LFM 2.5-1.2B 570 tok/s, com o primeiro token levando apenas 6.6ms. Comparado ao mesmo arquivo, isso supera a própria MLX da Apple em 19%, e bate a média do llama.cpp em 67%, sem mencionar uzu e Ollama, que estão muito atrás. A Apple sempre defendeu a prioridade local com sua Apple Intelligence, mas o potencial do hardware tem sido desperdiçado por várias limitações de frameworks, como se estivesse selado. O MetalRT ataca diretamente a API Metal, eliminando a camada Python e as camadas de abstração que geram custos desnecessários, sendo projetado especificamente para memória unificada + GPU, o que resultou nesse desempenho extremo. O verdadeiro valor dos modelos locais nunca foi "apenas conseguir rodar", mas sim rodar rápido o suficiente, de forma econômica e privada, para realmente substituir a nuvem. 6.6ms para o primeiro token significa que chat, voz, complementação de código e chamadas de JSON têm praticamente zero latência; uma alta taxa de tok/s é necessária para suportar longos contextos e múltiplas ferramentas em paralelo, sem travamentos. Além disso, com zero conexão, zero assinatura e dados não saindo do dispositivo, é assim que a IA local de nível produtivo deve ser. Ser mais rápido não é apenas para exibir números de tok/s, mas para permitir que modelos pequenos superem a experiência de resposta de grandes modelos na nuvem em dispositivos Apple. A IA on-device do ecossistema Apple deveria ser assim desde o início, e agora é que realmente começou a acelerar. A Apple realmente está em casa, enquanto a comunidade de código aberto está abrindo a caixa de Pandora, a IA local é tão confortável, só espero que modelos mais inteligentes apareçam.