En solo 48 horas @RunAnywhereAI construimos MetalRT: superando a @Apple en su propio juego y entregando el motor de inferencia LLM MÁS RÁPIDO del mercado para Apple Silicon ahora mismo. - Decodificación de 570 tok/s @liquidai LFM 2.5-1.2B de 4 bits - Decodificación de 658 tok/s @Alibaba_Qwen Qwen3-0.6B, 4 bits - 6,6 ms de tiempo hasta el primer token - 1.19× más rápido que el propio MLX de Apple (archivos de modelo idénticos) - 1,67× más rápido que llama.cpp de media Arrasamos con Apple MLX, llama.cpp, uzu (de TryMirai) y Ollama en cuatro modelos diferentes de 4 bits, incluyendo el LFM2.5-1.2B optimizado para dispositivos en un solo M4 Max. ¡Estoy emocionado por este! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx