Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Lihat ini 👌🏻

Sanchit monga5 Mar, 11.58
Hanya dalam 48 jam di @RunAnywhereAI kami membangun MetalRT: mengalahkan @Apple dalam permainan mereka sendiri dan menghadirkan mesin inferensi LLM TERCEPAT di pasaran untuk Apple Silicon saat ini.
- 570 tok/s dekode @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s dekode @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6,6 ms waktu-ke-token pertama
- 1,19× lebih cepat dari MLX milik Apple (file model identik)
- 1,67× lebih cepat dari llama.cpp rata-rata
Kami menghancurkan Apple MLX, llama.cpp, uzu (oleh TryMirai), dan Ollama di empat model 4-bit yang berbeda, termasuk LFM2.5-1.2B yang dioptimalkan pada perangkat pada satu M4 Max.
Bersemangat untuk yang satu ini!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

186
Rilis model kecil hibrida yang benar-benar mengesankan dari tim Qwen seperti biasa!
Orang-orang bertanya bagaimana mereka membandingkan kecepatan, latensi, dan memori dengan LFM @liquidai untuk penerapan di perangkat?
Berikut adalah profil singkat tentang Apple M3 Ultra:
> LFM2.5-1.2B 52% lebih cepat dalam dekode daripada Qwen3.5-0.8B.
> LFM2-700M 71% lebih cepat daripada Qwen3.5-0.8B pada dekode
> LFM2-2.6B memiliki kecepatan yang sama dengan Qwen3.5-2B pada dekode
> LFM2-700M menggunakan memori puncak 46% lebih sedikit daripada Qwen3.5-0.8B
> LFM2-2.6B menggunakan memori puncak 21% lebih sedikit daripada Qwen3.5-2B
> prefill lfms dengan ukuran parameter yang sama umumnya 12% lebih cepat daripada Qwen3.5
Kami merancang seri LFM2 dengan pendekatan desain meta AI hardware-in-the-loop kami yang memungkinkan kami menemukan arsitektur paling efisien untuk prosesor tertentu tanpa pengorbanan kualitas.
Pengujian ini dilakukan pada Apple M3 Ultra, memori terpadu 512 GB
Konfigurasi:
> 512 token prompt, 128 token generasi,
> 5 uji coba per konfigurasi
Kerangka >: MLX (mlx-lm / mlx-vlm)


Qwen2 Mar, 21.18
🚀 Memperkenalkan Seri Model Kecil Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Lebih banyak kecerdasan, lebih sedikit komputasi.
Model-model kecil ini dibangun di atas fondasi Qwen3.5 yang sama — multimoda asli, arsitektur yang ditingkatkan, RL berskala:
• 0.8B / 2B → kecil, cepat, bagus untuk perangkat tepi
• 4B → basis multimoda yang sangat kuat untuk agen ringan
• 9B → kompak, tetapi sudah menutup celah dengan model yang jauh lebih besar
Dan ya — kami juga merilis model Base juga.
Kami berharap ini lebih mendukung penelitian, eksperimen, dan inovasi industri dunia nyata.
Wajah Memeluk:
Ruang lingkup model:

174
Teratas
Peringkat
Favorit
