Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
kiểm tra cái này 👌🏻

Sanchit monga11:58 5 thg 3
Chỉ trong 48 giờ tại @RunAnywhereAI, chúng tôi đã xây dựng MetalRT: đánh bại @Apple trong chính lĩnh vực của họ và cung cấp động cơ suy diễn LLM NHANH NHẤT trên thị trường cho Apple Silicon ngay bây giờ.
- 570 tok/s giải mã @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s giải mã @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms thời gian đến token đầu tiên
- Nhanh hơn 1.19× so với MLX của Apple (các tệp mô hình giống hệt nhau)
- Nhanh hơn 1.67× so với llama.cpp trung bình
Chúng tôi đã đánh bại Apple MLX, llama.cpp, uzu (bởi TryMirai), và Ollama trên bốn mô hình 4-bit khác nhau, bao gồm LFM2.5-1.2B tối ưu hóa trên thiết bị trên một M4 Max duy nhất.
Hào hứng với điều này!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

118
Thật sự ấn tượng với việc phát hành các mô hình nhỏ lai từ đội ngũ Qwen như thường lệ!
Mọi người đang hỏi chúng so sánh về tốc độ, độ trễ và bộ nhớ như thế nào với LFMs của @liquidai cho việc triển khai trên thiết bị?
Dưới đây là một số thông tin nhanh về hiệu suất trên Apple M3 Ultra:
> LFM2.5-1.2B nhanh hơn 52% trong việc giải mã so với Qwen3.5-0.8B.
> LFM2-700M nhanh hơn 71% so với Qwen3.5-0.8B trong việc giải mã
> LFM2-2.6B có tốc độ tương đương với Qwen3.5-2B trong việc giải mã
> LFM2-700M sử dụng ít bộ nhớ đỉnh hơn 46% so với Qwen3.5-0.8B
> LFM2-2.6B sử dụng ít bộ nhớ đỉnh hơn 21% so với Qwen3.5-2B
> lfms prefill với kích thước tham số tương tự thường nhanh hơn 12% so với Qwen3.5
Chúng tôi đã thiết kế dòng LFM2 với phương pháp thiết kế AI meta phần cứng trong vòng lặp cho phép chúng tôi tìm ra kiến trúc hiệu quả nhất cho một bộ xử lý nhất định mà không làm giảm chất lượng.
Bài kiểm tra này được thực hiện trên Apple M3 Ultra, 512 GB bộ nhớ thống nhất
Cấu hình:
> 512 token nhắc, 128 token sinh,
> 5 lần thử cho mỗi cấu hình
> Khung: MLX (mlx-lm / mlx-vlm)


Qwen21:18 2 thg 3
🚀 Giới thiệu dòng mô hình nhỏ Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Thông minh hơn, tính toán ít hơn.
Những mô hình nhỏ này được xây dựng trên nền tảng Qwen3.5 — đa phương thức bản địa, kiến trúc cải tiến, RL mở rộng:
• 0.8B / 2B → nhỏ, nhanh, tuyệt vời cho thiết bị biên
• 4B → một nền tảng đa phương thức mạnh mẽ bất ngờ cho các tác nhân nhẹ
• 9B → gọn nhẹ, nhưng đã thu hẹp khoảng cách với các mô hình lớn hơn nhiều
Và đúng vậy — chúng tôi cũng sẽ phát hành các mô hình cơ bản.
Chúng tôi hy vọng điều này sẽ hỗ trợ tốt hơn cho nghiên cứu, thử nghiệm và đổi mới công nghiệp thực tế.
Hugging Face:
ModelScope:

156
Hàng đầu
Thứ hạng
Yêu thích
