En seulement 48 heures chez @RunAnywhereAI, nous avons construit MetalRT : battant @Apple à leur propre jeu et livrant le MOTEUR d'inférence LLM le PLUS RAPIDE sur le marché pour Apple Silicon en ce moment. - 570 tok/s décodage @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s décodage @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6,6 ms temps jusqu'au premier token - 1,19× plus rapide que le propre MLX d'Apple (fichiers de modèle identiques) - 1,67× plus rapide que llama.cpp en moyenne Nous avons écrasé Apple MLX, llama.cpp, uzu (par TryMirai) et Ollama à travers quatre modèles 4-bit différents, y compris le LFM2.5-1.2B optimisé pour l'appareil sur un seul M4 Max. Excité pour celui-ci ! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx