Ik heb op 28 februari 84 miljoen tokens verbrand. Bedrijven onderzoeken, memo's opstellen, agenten aansteken. Dat is het draaien van Kimi K2.5, een serverloze model via API. Bij Claude of OpenAI tarieven — ongeveer $9 per miljoen tokens gemengd — zou het equivalente gebruik $756 kosten voor een enkele dag werk. Mijn piekdagen halen 80 miljoen tokens. Mijn gemiddelde dagen draaien 20 miljoen. Cloud-inferentie tegen prijzen van grensmodellen loopt snel op.
Deze week heeft Alibaba Qwen3.5-9B uitgebracht, een open-source model dat overeenkomt met Claude Opus 4.1 van december 2025. Het draait lokaal op 12GB RAM. Drie maanden geleden vereiste deze capaciteit een datacenter. Nu is er alleen een stopcontact voor nodig.
Een laptop van $5.000 — een MacBook Pro met genoeg geheugen om Qwen lokaal te draaien — betaalt zichzelf terug na 556 miljoen tokens. Bij mijn gebruiksfrequentie is dat ongeveer een maand. Bij 20 miljoen tokens per dag is het vier weken. Na terugbetaling daalt de marginale kostprijs naar elektriciteit. Het is geen compromis op het gebied van intelligentie. Redeneren, coderen, agentische workflows, documentverwerking, instructies opvolgen: het 9B-model komt in december overal overeen met de grens.
@twlvone Meer rekenkracht helpt niet verder dan een bepaald niveau van nauwkeurigheid bij het aanroepen van tools
51