Cavolo, @sanchitmonga22 Il team di RunAnywhereAI ha creato MetalRT in 48 ore, portando la velocità di decodifica degli LLM su Apple Silicon a nuovi livelli. Con lo stesso modello a 4 bit su M4 Max, Qwen3-0.6B raggiunge 658 tok/s, LFM 2.5-1.2B 570 tok/s, il primo token richiede solo 6.6ms. Rispetto allo stesso file, supera l'MLX di Apple del 19%, e batte in media llama.cpp del 67%, senza nemmeno menzionare uzu e Ollama, che sono molto indietro. L'Apple Intelligence di Apple ha sempre sostenuto la priorità locale, ma il potenziale hardware è stato in realtà limitato e sprecato da vari framework, come se fosse sigillato. MetalRT affronta direttamente l'API Metal, eliminando il livello Python e gli strati di astrazione che comportano costi inutili, progettato specificamente per la memoria unificata + GPU, riuscendo a estrarre questa prestazione estrema. Il vero valore dei modelli locali non è mai stato "basta che funzionino", ma è correre abbastanza veloce, risparmiare, e mantenere la privacy, per sostituire realmente il cloud. 6.6ms per il primo token significa che chat, voce, completamento del codice e chiamate JSON da parte di agenti sono praticamente senza latenza; un alto tok/s è necessario per sostenere contesti lunghi e strumenti multipli in parallelo, senza blocchi. Inoltre, con zero connessione, zero abbonamenti e dati che non lasciano il dispositivo, questo è ciò che ci si aspetta da un'AI locale di livello produttivo. Essere più veloci non è per vantarsi dei numeri tok/s, ma per far sì che i piccoli modelli battano direttamente l'esperienza di risposta dei grandi modelli cloud sui dispositivi Apple. L'AI on-device nell'ecosistema Apple dovrebbe funzionare in questo modo, e ora possiamo dire che è davvero iniziato l'acceleramento. Apple è davvero come se fosse a casa, mentre la comunità open source sta costruendo e aprendo la scatola di Pandora, l'AI locale è così comoda, speriamo solo che emergano modelli più intelligenti.