Sakra, tým RunAnywhereAI @sanchitmonga22 přišel s MetalRT za 48 hodin, přímo posunul dekódovací rychlost LLM na Apple Silicon na novou úroveň, použil stejný 4bitový model na M4 Max, Qwen3-0,6B běží na 658 tok/s, LFM 2,5-1,2B 570 tok/s a první token trvá jen 6,6 ms. Ve srovnání se stejným dokumentem je Apple vlastní MLX 19 %, průměr hammer llama.cpp 67 %, nemluvě o Uzu a Ollamě, které zaostávají ve všech ohledech. Apple Intelligence od Applu vždy hlásal lokální prioritu, ale hardwarový potenciál je ve skutečnosti promarněn různými omezeními frameworku, což je ekvivalent uzavření, MetalRT má přímo útočit na Metal API, odříznout složitou režijní instalaci Python a abstrakční vrstvy a přizpůsobit ji pro sjednocenou paměť + GPU, aby vytlačil tuto vlnu extrémního výkonu. Skutečná hodnota lokálního modelu nikdy není "jen běž, pokud můžeš", ale běží dostatečně rychle, úsporně a dostatečně soukromě, aby skutečně nahradil cloud. 6,6 ms první token znamená, že chat, hlas, kód doplněk a agent volají JSON bez prodlení; Vysoký tok/s může rozšířit kontext, multitoolový paralelismus a vyhnout se rušení. Ve spojení s nulovou sítí, nulovým odběratelem a daty nikdy neopouštějící zařízení by takto měla vypadat lokální AI na úrovni produktivity. Rychlejší není proto, aby se předváděl tok/s, ale aby malý model přímo překonal zážitek z odezvy cloudového velkého modelu na zařízeních Apple. Apple AI na zařízení by měla být takto hraná a teď se opravdu začala zrychlovat. Apple opravdu sedí doma, open source komunita buduje otevření Pandoriny skříňky, lokální AI je příliš pohodlná, jen doufám, že se objeví více inteligentních modelů.