DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Hitto, @sanchitmonga22 RunAnywhereAI-tiimi kehitti MetalRT:n 48 tunnissa, kuivattaen LLM:ien dekoodausnopeuden Apple Silicon -laitteella uudelle tasolle, käyttäen samaa 4-bittistä mallia M4 Maxissa, Qwen3-0.6B ajaa 658 tok/s, LFM 2.5-1.2B 570 tok/s, ja ensimmäinen token vie vain 6.6ms. Samaan asiakirjaan verrattuna Applen oma MLX on 19 %, vasarakeskiarvo llama.cpp 67 %, puhumattakaan Uzusta ja Ollamasta, jotka jäävät jälkeen kaikilla osa-alueilla. Applen Apple Intelligence on aina huutanut paikallista prioriteettia, mutta laitteistopotentiaali menee hukkaan erilaisilla kehysrajoituksilla, mikä vastaa sulkeutumista; MetalRT:n tarkoituksena on hyökätä suoraan Metal API:n kimppuun, poistaa Python-kerroksen ja abstraktiokerroksen sotkuinen ylikuormitus ja räätälöidä se yhtenäiselle muistille + GPU:lle, jotta tämä äärimmäisen suorituskyvyn aalto saadaan pois. Paikallisen mallin todellinen arvo ei koskaan ole "aja, jos pystyt", mutta se toimii tarpeeksi nopeasti, tarpeeksi taloudellisesti ja tarpeeksi yksityinen korvaamaan pilven. 6,6ms ensimmäinen token tarkoittaa chattia, puhetta, koodilisäosaa ja Agentin kutsua JSON-puhelua viipymättä; Korkea tok/s voi laajentaa kontekstia, käyttää monityökalun rinnakkaisuutta ja estää jumittumisen. Yhdistettynä nollaverkkoon, nollaan tilaukseen ja datan poistumiseen laitteelta, tältä tuottavuustason paikallisen tekoälyn pitäisi näyttää. Nopeampi ei tarkoita tok/s-lukujen esittelyä, vaan sitä, että pieni malli voittaa suoraan pilvipohjaisen suuren mallin vastekokemuksen Applen laitteilla. Applen laitepohjaista tekoälyä on tarkoitus pelata näin, ja nyt se on todella alkanut kiihtyä. Apple istuu todella kotona, avoimen lähdekoodin yhteisö rakentaa Pandoran lippaan avaamista, paikallinen tekoäly on liian mukava, toivon vain, että älykkäämpiä malleja ilmestyy.

Johtavat

Rankkaus

Suosikit