热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
卧槽,@sanchitmonga22 RunAnywhereAI 团队48小时搞出MetalRT,直接把Apple Silicon上的LLM解码速度干到新高度,在M4 Max上用相同4-bit模型,Qwen3-0.6B跑到658 tok/s,LFM 2.5-1.2B 570 tok/s,首token只要6.6ms。
对比同文件,甩开苹果自家MLX 19%,锤llama.cpp平均67%,uzu和Ollama更不用提,全线落后。
苹果的Apple Intelligence一直喊本地优先,但硬件潜力其实被各种框架限制浪费了,相当于封印住了,MetalRT就是直接怼Metal API,砍掉Python层、抽象层那些乱七八糟的开销,专为统一内存+GPU量身定做,才挤出这波极致性能。
本地模型的真价值从来不是“能跑就行”,而是跑得够快、够省、够私密,才真正取代云端。6.6ms首token意味着聊天、语音、补代码、Agent调用JSON基本无延迟感;高tok/s才能撑长上下文、多工具并行,不卡壳。加上零联网、零订阅、数据不离设备,这才是生产力级别的本地AI该有的样子。
更快不是为了炫tok/s数字,而是让小模型在苹果设备上直接打败云大模型的响应体验。苹果生态的on-device AI,本来就该这么玩,现在才算真正开始加速。苹果真的是人在家中坐,开源社区嗷嗷建设打开潘多拉魔盒,本地Ai太舒服了,只希望更智力的模型出现。

热门
排行
收藏
