Vay canına, @sanchitmonga22 RunAnywhereAI ekibi MetalRT'yi 48 saatte geliştirdi, Apple Silicon'da LLM'lerin kod çözme hızını doğrudan yeni bir seviyeye çıkardı; aynı 4-bit modeli M4 Max'te kullanıyor, Qwen3-0.6B 658 tok/s, LFM 2.5-1.2B 570 tok/s hızında çalışıyor ve ilk token sadece 6.6ms sürüyor. Aynı belgeyle karşılaştırıldığında, Apple'ın kendi MLX'i %19, çekiç llama.cpp ortalaması %67, ayrıca Uzu ve Ollama genel olarak geride kalıyor. Apple'ın Apple Intelligence'ı her zaman yerel önceliği bağırmıştır, ancak donanım potansiyeli aslında çeşitli çerçeve kısıtlamalarıyla boşa harcanıyor; ki bu da mühürlenmek gibi; MetalRT doğrudan Metal API'ye saldırmak, Python katmanı ve soyutlama katmanının karmaşık yükünü azaltmak ve bu aşırı performans dalgasını karşılamak için birleşik bellek + GPU için uyarlamaktır. Yerel modelin gerçek değeri asla "yapabiliyorsanız çalıştırın" değildir; ama yeterince hızlı, ekonomik ve bulutun yerini alacak kadar özeldir. 6.6ms birinci token, sohbet, ses, kod eki ve Ajan araması anlamına gelir ve gecikmeden JSON araması; Yüksek tok/s bağlamı genişletebilir, çoklu araç paralelliği yapabilir ve tıkanıklığı önleyebilir. Sıfır ağ, sıfır abonelik ve verilerin cihazdan hiç ayrılmaması ile birlikte, verimlilik düzeyindeki yerel yapay zeka böyle olmalı. Daha hızlı, tok/s rakamlarını göstermek için değil, küçük modelin Apple cihazlarındaki bulut büyük modelinin yanıt deneyimini doğrudan geçmesini sağlamaktır. Apple'ın cihaz üzerindeki yapay zekası böyle oynanması gerekiyordu ve şimdi gerçekten hızlanmaya başladı. Apple gerçekten evinde oturuyor, açık kaynak topluluğu Pandora'nın kutusunu açmak için inşa ediyor, yerel yapay zeka çok rahat, umarım daha akıllı modeller ortaya çıkar.