Wouah, @sanchitmonga22 l'équipe RunAnywhereAI a réussi à créer MetalRT en 48 heures, augmentant directement la vitesse de décodage des LLM sur Apple Silicon à de nouveaux sommets. Sur le M4 Max, avec le même modèle 4 bits, Qwen3-0.6B atteint 658 tok/s, LFM 2.5-1.2B 570 tok/s, le premier token ne prend que 6,6 ms. Comparé au même fichier, cela surpasse de 19 % le MLX d'Apple, et de 67 % en moyenne par rapport à llama.cpp, sans parler de uzu et Ollama, qui sont largement en retard. L'Apple Intelligence d'Apple a toujours prôné la priorité locale, mais le potentiel matériel est en réalité limité et gaspillé par divers frameworks, ce qui revient à le sceller. MetalRT s'attaque directement à l'API Metal, éliminant les couches Python et abstraites et leurs coûts divers, conçu spécifiquement pour une mémoire unifiée + GPU, ce qui a permis d'atteindre cette performance extrême. La véritable valeur des modèles locaux n'est jamais "juste capable de fonctionner", mais plutôt de fonctionner assez rapidement, de manière économique et privée, pour réellement remplacer le cloud. 6,6 ms pour le premier token signifie que les conversations, la voix, la complétion de code et les appels JSON d'Agent se font pratiquement sans latence ; un haut tok/s est nécessaire pour soutenir un long contexte et un parallélisme d'outils, sans blocage. De plus, avec aucune connexion, aucun abonnement, et les données ne quittant pas l'appareil, c'est ainsi que l'IA locale de niveau productivité devrait être. Être plus rapide n'est pas pour afficher des chiffres tok/s, mais pour permettre aux petits modèles de battre directement l'expérience de réponse des grands modèles cloud sur les appareils Apple. L'IA sur appareil de l'écosystème Apple devrait fonctionner ainsi, et maintenant cela commence vraiment à s'accélérer. Apple est vraiment assis chez lui, la communauté open source construit à toute vitesse, ouvrant la boîte de Pandore, l'IA locale est tellement agréable, j'espère juste que des modèles plus intelligents apparaîtront.