卧槽,@sanchitmonga22 RunAnywhereAI 团队48小时搞出MetalRT,直接把Apple Silicon上的LLM解码速度干到新高度,在M4 Max上用相同4-bit模型,Qwen3-0.6B跑到658 tok/s,LFM 2.5-1.2B 570 tok/s,首token只要6.6ms。 对比同文件,甩开苹果自家MLX 19%,锤llama.cpp平均67%,uzu和Ollama更不用提,全线落后。 苹果的Apple Intelligence一直喊本地优先,但硬件潜力其实被各种框架限制浪费了,相当于封印住了,MetalRT就是直接怼Metal API,砍掉Python层、抽象层那些乱七八糟的开销,专为统一内存+GPU量身定做,才挤出这波极致性能。 本地模型的真价值从来不是“能跑就行”,而是跑得够快、够省、够私密,才真正取代云端。6.6ms首token意味着聊天、语音、补代码、Agent调用JSON基本无延迟感;高tok/s才能撑长上下文、多工具并行,不卡壳。加上零联网、零订阅、数据不离设备,这才是生产力级别的本地AI该有的样子。 更快不是为了炫tok/s数字,而是让小模型在苹果设备上直接打败云大模型的响应体验。苹果生态的on-device AI,本来就该这么玩,现在才算真正开始加速。苹果真的是人在家中坐,开源社区嗷嗷建设打开潘多拉魔盒,本地Ai太舒服了,只希望更智力的模型出现。