在 @RunAnywhereAI 的 48 小時內,我們打造了 MetalRT:在自己的遊戲中擊敗 @Apple,並為 Apple Silicon 提供市場上最快的 LLM 推理引擎。 - 570 tok/s 解碼 @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s 解碼 @Alibaba_Qwen Qwen3-0.6B,4-bit - 6.6 毫秒首次令牌時間 - 比 Apple 自家的 MLX 快 1.19 倍(相同的模型檔案) - 平均比 llama.cpp 快 1.67 倍 我們在四種不同的 4-bit 模型中擊敗了 Apple MLX、llama.cpp、uzu(由 TryMirai 提供)和 Ollama,包括在單個 M4 Max 上優化的 LFM2.5-1.2B。 對這個感到興奮! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx