Em apenas 48 horas na @RunAnywhereAI, construímos o MetalRT: superando a @Apple no seu próprio jogo e entregando o MOTOR de inferência LLM MAIS RÁPIDO do mercado para Apple Silicon neste momento. - 570 tok/s decodificação @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s decodificação @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6.6 ms tempo até o primeiro token - 1.19× mais rápido que o próprio MLX da Apple (arquivos de modelo idênticos) - 1.67× mais rápido que llama.cpp em média Destruímos a Apple MLX, llama.cpp, uzu(by TryMirai) e Ollama em quatro modelos diferentes de 4-bit, incluindo o LFM2.5-1.2B otimizado para dispositivo em um único M4 Max. Empolgado por este!