Wow, @sanchitmonga22 zespół RunAnywhereAI w ciągu 48 godzin stworzył MetalRT, który podniósł prędkość dekodowania LLM na Apple Silicon na nowy poziom. Na M4 Max przy użyciu tego samego modelu 4-bitowego, Qwen3-0.6B osiąga 658 tok/s, a LFM 2.5-1.2B 570 tok/s, a pierwszy token zajmuje tylko 6.6 ms. W porównaniu do tego samego pliku, wyprzedza Apple własne MLX o 19%, średnio 67% lepszy od llama.cpp, a o uzu i Ollama nie wspominając, wszyscy są daleko w tyle. Apple zawsze mówi o priorytecie lokalnym w Apple Intelligence, ale potencjał sprzętowy jest w rzeczywistości ograniczany przez różne ramy, co jest równoznaczne z jego zamknięciem. MetalRT bezpośrednio współpracuje z Metal API, eliminując warstwę Pythona i inne zbędne koszty abstrakcji, zaprojektowane specjalnie dla zjednoczonej pamięci + GPU, co pozwoliło uzyskać tę ekstremalną wydajność. Prawdziwa wartość lokalnych modeli nigdy nie polega na tym, że "mogą działać", ale na tym, że działają wystarczająco szybko, oszczędnie i prywatnie, aby naprawdę zastąpić chmurę. 6.6 ms na pierwszy token oznacza, że rozmowy, głos, uzupełnianie kodu i wywołania JSON są praktycznie bez opóźnienia; wysoka prędkość tok/s pozwala na długie konteksty i równoległe korzystanie z wielu narzędzi, bez zacięć. Dodatkowo, brak połączenia z siecią, brak subskrypcji i dane nie opuszczają urządzenia, to właśnie tak powinien wyglądać lokalny AI na poziomie produktywności. Szybciej nie oznacza tylko chwały dla liczb tok/s, ale pozwala małym modelom na bezpośrednie pokonanie doświadczenia odpowiedzi dużych modeli w chmurze na urządzeniach Apple. AI na urządzeniach w ekosystemie Apple powinno tak działać, a teraz naprawdę zaczyna przyspieszać. Apple naprawdę jest w domu, a społeczność open source otworzyła pudełko Pandory, lokalny AI jest niesamowity, tylko mam nadzieję na pojawienie się bardziej inteligentnych modeli.