Vaya, @sanchitmonga22 equipo de RunAnywhereAI creó MetalRT en 48 horas, reduciendo directamente la velocidad de decodificación de los LLMs en Apple Silicon a un nuevo nivel, usando el mismo modelo de 4 bits en M4 Max, Qwen3-0.6B funciona a 658 tok/s, LFM 2.5-1.2B 570 tok/s, y el primer token solo tarda 6,6 ms. Comparado con el mismo documento, el propio MLX de Apple es del 19%, la media de llama.cpp martillo es del 67%, sin mencionar a Uzu y Ollama, que van por detrás en general. Apple Intelligence de Apple siempre ha dado prioridad local, pero el potencial del hardware en realidad se desperdicia por varias restricciones del framework, lo que equivale a estar sellado; MetalRT es atacar directamente la API de Metal, eliminar la carga caótica de la capa de Python y la capa de abstracción, y adaptarla para memoria unificada + GPU para exprimir esta ola de rendimiento extremo. El verdadero valor del modelo local nunca es "simplemente ejecuta si puedes", sino que funciona lo suficientemente rápido, económico y privado como para reemplazar realmente a la nube. 6,6 ms de primer token significa chat, voz, suplemento de código y llamada Agent JSON sin demora; El alto tok/s puede ampliar el contexto, paralelismo con múltiples herramientas y evitar interferencias. Sumado a cero red, ninguna suscripción y que los datos nunca salgan del dispositivo, así es como debería ser la IA local a nivel de productividad. Más rápido no es presumir de cifras tok/s, sino dejar que el modelo pequeño supere directamente la experiencia de respuesta del modelo grande en la nube en dispositivos Apple. La IA de Apple en el dispositivo se supone que debe jugarse así, y ahora realmente ha empezado a acelerarse. Apple está realmente en casa, la comunidad de código abierto está construyendo para abrir la caja de Pandora, la IA local está demasiado cómoda, solo espero que aparezcan modelos más inteligentes.