Chỉ trong 48 giờ tại @RunAnywhereAI, chúng tôi đã xây dựng MetalRT: đánh bại @Apple trong chính lĩnh vực của họ và cung cấp động cơ suy diễn LLM NHANH NHẤT trên thị trường cho Apple Silicon ngay bây giờ. - 570 tok/s giải mã @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s giải mã @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6.6 ms thời gian đến token đầu tiên - Nhanh hơn 1.19× so với MLX của Apple (các tệp mô hình giống hệt nhau) - Nhanh hơn 1.67× so với llama.cpp trung bình Chúng tôi đã đánh bại Apple MLX, llama.cpp, uzu (bởi TryMirai), và Ollama trên bốn mô hình 4-bit khác nhau, bao gồm LFM2.5-1.2B tối ưu hóa trên thiết bị trên một M4 Max duy nhất. Hào hứng với điều này! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx