在 @RunAnywhereAI 的48小时内,我们构建了 MetalRT:在自己的游戏中击败 @Apple,并交付市场上最快的 LLM 推理引擎,专为 Apple Silicon 设计。 - 570 tok/s 解码 @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s 解码 @Alibaba_Qwen Qwen3-0.6B,4-bit - 6.6 毫秒首次令牌时间 - 比 Apple 自己的 MLX 快 1.19 倍(模型文件相同) - 平均比 llama.cpp 快 1.67 倍 我们在四种不同的 4-bit 模型中击败了 Apple MLX、llama.cpp、uzu(由 TryMirai 提供)和 Ollama,包括在单个 M4 Max 上优化的 LFM2.5-1.2B。 对此感到兴奋! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx