DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

La naiba, echipa @sanchitmonga22 RunAnywhereAI a creat MetalRT în 48 de ore, uscând direct viteza de decodare a LLM-urilor pe Apple Silicon la un nou nivel, folosind același model pe 4 biți pe M4 Max, Qwen3-0.6B funcționează la 658 tok/s, LFM 2.5-1.2B 570 tok/s, iar primul token durează doar 6,6ms. Comparativ cu același document, MLX-ul Apple este de 19%, media llama.cpp ciocanului este de 67%, ca să nu mai vorbim de Uzu și Ollama, care rămân în urmă pe toate planurile. Apple Intelligence de la Apple a declarat întotdeauna prioritate locală, dar potențialul hardware este de fapt irosit de diverse restricții ale cadrului, ceea ce echivalează cu a fi sigilat, MetalRT este pentru a ataca direct API-ul Metal, a elimina oversell-ul complicat al stratului Python și stratul de abstractizare și a-l adapta pentru memorie unificată + GPU pentru a elimina acest val de performanță extremă. Valoarea reală a modelului local nu este niciodată "doar rulează dacă poți", ci funcționează suficient de rapid, economic și privat pentru a înlocui cu adevărat cloud-ul. 6,6ms primul token înseamnă chat, voce, supliment de cod și apel Agent JSON fără întârziere; High tok/s poate extinde contextul, poate folosi paralelismul cu mai multe unelte și poate evita bruiajul. Combinat cu zero rețea, zero abonamente și date care nu părăsesc niciodată dispozitivul, așa ar trebui să arate AI local la nivel de productivitate. Mai rapid nu înseamnă să arăți cifrele tok/s, ci să lași modelul mic să depășească direct experiența de răspuns a modelului cloud big pe dispozitivele Apple. Inteligența artificială de pe dispozitiv a Apple ar trebui să fie jucată astfel, iar acum a început cu adevărat să accelereze. Apple stă cu adevărat acasă, comunitatea open source construiește pentru a deschide cutia Pandorei, AI-ul local este prea confortabil, sper doar să apară modele mai inteligente.

Limită superioară

Clasament

Favorite