Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cavolo, @sanchitmonga22 Il team di RunAnywhereAI ha creato MetalRT in 48 ore, portando la velocità di decodifica degli LLM su Apple Silicon a nuovi livelli. Con lo stesso modello a 4 bit su M4 Max, Qwen3-0.6B raggiunge 658 tok/s, LFM 2.5-1.2B 570 tok/s, il primo token richiede solo 6.6ms.
Rispetto allo stesso file, supera l'MLX di Apple del 19%, e batte in media llama.cpp del 67%, senza nemmeno menzionare uzu e Ollama, che sono molto indietro.
L'Apple Intelligence di Apple ha sempre sostenuto la priorità locale, ma il potenziale hardware è stato in realtà limitato e sprecato da vari framework, come se fosse sigillato. MetalRT affronta direttamente l'API Metal, eliminando il livello Python e gli strati di astrazione che comportano costi inutili, progettato specificamente per la memoria unificata + GPU, riuscendo a estrarre questa prestazione estrema.
Il vero valore dei modelli locali non è mai stato "basta che funzionino", ma è correre abbastanza veloce, risparmiare, e mantenere la privacy, per sostituire realmente il cloud. 6.6ms per il primo token significa che chat, voce, completamento del codice e chiamate JSON da parte di agenti sono praticamente senza latenza; un alto tok/s è necessario per sostenere contesti lunghi e strumenti multipli in parallelo, senza blocchi. Inoltre, con zero connessione, zero abbonamenti e dati che non lasciano il dispositivo, questo è ciò che ci si aspetta da un'AI locale di livello produttivo.
Essere più veloci non è per vantarsi dei numeri tok/s, ma per far sì che i piccoli modelli battano direttamente l'esperienza di risposta dei grandi modelli cloud sui dispositivi Apple. L'AI on-device nell'ecosistema Apple dovrebbe funzionare in questo modo, e ora possiamo dire che è davvero iniziato l'acceleramento. Apple è davvero come se fosse a casa, mentre la comunità open source sta costruendo e aprendo la scatola di Pandora, l'AI locale è così comoda, speriamo solo che emergano modelli più intelligenti.

Principali
Ranking
Preferiti
