Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Uită-te 👌🏻 la asta

Sanchit monga5 mar., 11:58
În doar 48 de ore la @RunAnywhereAI am construit MetalRT: învingându-i pe @Apple la propriul lor joc și livrând cel MAI RAPID motor de inferență LLM de pe piață pentru Apple Silicon în acest moment.
- Decodare 570 tok/s @liquidai LFM 2.5-1.2B pe 4 biți
- Decodare 658 tok/s @Alibaba_Qwen Qwen3-0.6B, 4 biți
- 6,6 ms timp până la primul jeton
- 1.19× mai rapid decât propriul MLX al Apple (fișiere model identice)
- 1,67× mai rapid decât llama.cpp în medie
Am zdrobit Apple MLX, llama.cpp, uzu (de la TryMirai) și Ollama în patru modele diferite pe 4 biți, inclusiv LFM2.5-1.2B optimizat pe dispozitiv pe un singur M4 Max.
Sunt entuziasmat pentru acesta!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

190
Lansarea cu adevărat impresionantă a modelelor hibride tiny din partea echipei Qwen, ca întotdeauna!
Oamenii întreabă cum se compară în viteză, latență și memorie cu LFM-urile @liquidai pentru implementarea pe dispozitiv?
Iată o scurtă prezentare a Apple M3 Ultra:
> LFM2.5-1.2B este cu 52% mai rapid în decodare decât Qwen3.5-0.8B.
> LFM2-700M este cu 71% mai rapid decât Qwen3.5-0.8B la decodare
> LFM2-2.6B are aceeași viteză ca Qwen3.5-2B la decodare
> LFM2-700M folosește cu 46% mai puțină memorie de pic decât Qwen3.5-0.8B
> LFM2-2.6B folosește cu 21% mai puțină memorie de pic decât Qwen3.5-2B
> prefill lfms cu aceeași dimensiune a parametrilor este, în general, cu 12% mai rapid decât Qwen3.5
Am proiectat seria LFM2 cu abordarea noastră de design meta-AI hardware-in-the-loop, care ne permite să descoperim cea mai eficientă arhitectură pentru un procesor dat fără sacrificii de calitate.
Acest test se face pe Apple M3 Ultra, memorie unificată de 512 GB
Configurație:
> 512 jetoane de prompt, 128 de jetoane de generație,
> 5 teste pe configurație
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2 mar., 21:18
🚀 Prezentarea seriei de modele mici Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mai multă inteligență, mai puțin calcul.
Aceste modele mici sunt construite pe aceeași fundație Qwen3.5 — multimodal nativ, arhitectură îmbunătățită, RL scalat:
• 0.8B / 2B → mic, rapid, excelent pentru dispozitive edge
• 4B → o bază multimodală surprinzător de puternică pentru agenții ușori
• 9B → compactă, dar deja se apropie de modelele mult mai mari
Și da — lansăm și modelele de bază.
Sperăm că acest lucru va susține mai bine cercetarea, experimentarea și inovația industrială din lumea reală.
Față de îmbrățișare:
ModelScope:

184
Limită superioară
Clasament
Favorite
