DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Wauw, @sanchitmonga22 Het RunAnywhereAI-team heeft in 48 uur MetalRT ontwikkeld, waardoor de decodesnelheid van LLM op Apple Silicon naar een nieuw niveau is getild. Op de M4 Max draait het met hetzelfde 4-bit model, Qwen3-0.6B tot 658 tok/s, LFM 2.5-1.2B 570 tok/s, en de eerste token kost slechts 6,6 ms. In vergelijking met hetzelfde bestand, is het 19% sneller dan Apple's eigen MLX, gemiddeld 67% sneller dan llama.cpp, en uzu en Ollama zijn nog veel slechter, allemaal ver achter. Apple's Apple Intelligence roept altijd om lokale prioriteit, maar het hardwarepotentieel is in feite verspild door verschillende frameworks, wat gelijk staat aan een vergrendeling. MetalRT gaat rechtstreeks tegen de Metal API in, snijdt de Python-laag en abstractielaag met al die rommelige overhead weg, speciaal ontworpen voor uniforme geheugen+GPU, waardoor deze extreme prestaties mogelijk zijn. De echte waarde van lokale modellen is nooit "het kan draaien", maar het moet snel genoeg, efficiënt en privé zijn om echt de cloud te vervangen. 6,6 ms voor de eerste token betekent dat chatten, spraak, code aanvullen en Agent JSON-aanroepen praktisch zonder vertraging zijn; hoge tok/s is nodig om lange contexten en meerdere tools parallel te ondersteunen zonder vast te lopen. Bovendien, met nul internetverbinding, nul abonnementen en data die niet het apparaat verlaat, is dit hoe productiviteitsniveau lokale AI eruit zou moeten zien. Sneller zijn is niet om de tok/s cijfers te showen, maar om kleine modellen op Apple-apparaten direct de responservaring van grote cloudmodellen te laten verslaan. De on-device AI van het Apple-ecosysteem zou zo moeten zijn, en nu begint het pas echt te versnellen. Apple is echt iemand die thuis zit, terwijl de open-source gemeenschap enthousiast de Pandora's doos opent; lokale AI is zo comfortabel, ik hoop alleen dat er slimmere modellen komen.

Boven

Positie

Favorieten