一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

卧槽，@sanchitmonga22 RunAnywhereAI 团队48小时搞出MetalRT，直接把Apple Silicon上的LLM解码速度干到新高度，在M4 Max上用相同4-bit模型，Qwen3-0.6B跑到658 tok/s，LFM 2.5-1.2B 570 tok/s，首token只要6.6ms。对比同文件，甩开苹果自家MLX 19%，锤llama.cpp平均67%，uzu和Ollama更不用提，全线落后。苹果的Apple Intelligence一直喊本地优先，但硬件潜力其实被各种框架限制浪费了，相当于封印住了，MetalRT就是直接怼Metal API，砍掉Python层、抽象层那些乱七八糟的开销，专为统一内存+GPU量身定做，才挤出这波极致性能。本地模型的真价值从来不是“能跑就行”，而是跑得够快、够省、够私密，才真正取代云端。6.6ms首token意味着聊天、语音、补代码、Agent调用JSON基本无延迟感；高tok/s才能撑长上下文、多工具并行，不卡壳。加上零联网、零订阅、数据不离设备，这才是生产力级别的本地AI该有的样子。更快不是为了炫tok/s数字，而是让小模型在苹果设备上直接打败云大模型的响应体验。苹果生态的on-device AI，本来就该这么玩，现在才算真正开始加速。苹果真的是人在家中坐，开源社区嗷嗷建设打开潘多拉魔盒，本地Ai太舒服了，只希望更智力的模型出现。