DApp Store | Web3 Hub for hendelser og spill

Populære emner

Pokker, @sanchitmonga22 RunAnywhereAI-teamet kom opp med MetalRT på 48 timer, som direkte tørker dekodingshastigheten til LLM-er på Apple Silicon til et nytt nivå, med samme 4-bits modell på M4 Max, Qwen3-0,6B kjører til 658 tok/s, LFM 2,5-1,2B 570 tok/s, og den første tokenen tar bare 6,6 ms. Sammenlignet med det samme dokumentet ligger Apples egen MLX på 19 %, hammer llama.cpp gjennomsnittet er 67 %, for ikke å nevne Uzu og Ollama, som ligger bak på alle områder. Apples Apple Intelligence har alltid ropt lokal prioritet, men maskinvarepotensialet blir faktisk bortkastet på ulike rammeverksrestriksjoner, som tilsvarer å være forseglet; MetalRT er for å angripe Metal API-et direkte, kutte av den rotete overheaden med Python-laget og abstraksjonslaget, og tilpasse det for enhetlig minne + GPU for å presse ut denne bølgen av ekstrem ytelse. Den virkelige verdien av den lokale modellen er aldri «bare kjør hvis du kan», men den kjører raskt nok, økonomisk nok og privat nok til virkelig å erstatte skyen. 6,6 ms første token betyr chat, tale, kodetillegg og agentanrop JSON uten forsinkelse; Høye tok/s kan utvide konteksten, multitool-parallellisme og unngå jamming. Kombinert med null nettverk, null abonnement og data som aldri forlater enheten, er dette hvordan lokal AI på produktivitetsnivå bør se ut. Raskere er ikke å vise frem tok/s-tall, men å la den lille modellen direkte slå responsopplevelsen til den store skymodellen på Apple-enheter. Apples AI på enheten skal spilles slik, og nå har den virkelig begynt å akselerere. Apple sitter virkelig hjemme, open source-fellesskapet bygger for å åpne Pandoras eske, lokal AI er altfor komfortabelt, jeg håper bare at mer intelligente modeller vil dukke opp.

Topp

Rangering

Favoritter