In slechts 48 uur hebben we bij @RunAnywhereAI MetalRT gebouwd: we versloegen @Apple op hun eigen terrein en leverden de SNELSTE LLM-inferentie-engine op de markt voor Apple Silicon op dit moment. - 570 tok/s decodering @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s decodering @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6.6 ms tijd-tot-eerste-token - 1.19× sneller dan Apple's eigen MLX (identieke modelbestanden) - 1.67× sneller dan llama.cpp gemiddeld We hebben Apple MLX, llama.cpp, uzu (door TryMirai) en Ollama verpletterd over vier verschillende 4-bit modellen, inclusief de on-device geoptimaliseerde LFM2.5-1.2B op een enkele M4 Max. Opgewonden voor deze!