Wow, @sanchitmonga22 Das RunAnywhereAI-Team hat in 48 Stunden MetalRT entwickelt und die Dekodierungsgeschwindigkeit von LLMs auf Apple Silicon auf ein neues Niveau gehoben. Mit dem gleichen 4-Bit-Modell läuft Qwen3-0.6B auf dem M4 Max mit 658 tok/s, LFM 2.5-1.2B mit 570 tok/s, und das erste Token benötigt nur 6,6 ms. Im Vergleich zur gleichen Datei übertrifft es Apples eigene MLX um 19 %, schlägt llama.cpp im Durchschnitt um 67 %, und uzu sowie Ollama brauchen wir gar nicht erst zu erwähnen, die sind alle weit hinten. Apples Apple Intelligence hat immer von lokaler Priorität gesprochen, aber das Hardware-Potenzial wird tatsächlich durch verschiedene Frameworks eingeschränkt und verschwendet, was gleichbedeutend mit einer Versiegelung ist. MetalRT geht direkt gegen die Metal API vor, entfernt die Python-Schicht und die abstrakten Schichten, die mit allerlei Overhead verbunden sind, und ist speziell für einheitlichen Speicher + GPU maßgeschneidert, um diese extreme Leistung herauszuholen. Der wahre Wert lokaler Modelle liegt nie darin, dass sie „einfach laufen“, sondern darin, dass sie schnell genug, ressourcenschonend und privat sind, um die Cloud wirklich zu ersetzen. 6,6 ms für das erste Token bedeutet, dass Chat, Sprache, Code-Vervollständigung und Agentenaufrufe von JSON praktisch ohne Verzögerung erfolgen; hohe tok/s sind notwendig, um lange Kontexte und parallele Nutzung mehrerer Tools zu unterstützen, ohne ins Stocken zu geraten. Dazu kommt, dass es keine Internetverbindung, kein Abonnement und keine Daten, die das Gerät verlassen, gibt – so sollte lokale KI auf produktivitätsniveau aussehen. Schneller zu sein, ist nicht nur, um mit tok/s-Zahlen zu prahlen, sondern um kleinen Modellen auf Apple-Geräten zu ermöglichen, die Reaktionsfähigkeit von großen Cloud-Modellen direkt zu übertreffen. Die on-device KI im Apple-Ökosystem sollte genau so funktionieren, und jetzt beginnt es wirklich, schneller zu werden. Apple hat wirklich die Menschen zu Hause sitzen lassen, während die Open-Source-Community fleißig daran arbeitet, die Pandora-Box zu öffnen. Lokale KI ist einfach zu angenehm, ich hoffe nur, dass intelligentere Modelle erscheinen.