Queimei 84 milhões de tokens em 28 de fevereiro. Pesquisando empresas, redigindo memorandos, administrando agentes. Isso roda o Kimi K2.5, um modelo serverless via API. Nas taxas Claude ou OpenAI — aproximadamente $9 por milhão de tokens misturados — o uso equivalente custaria $756 por um único dia de trabalho. Meus dias de pico chegaram a 80 milhões de tokens. Meus dias médios são 20 milhões. A inferência em nuvem em precificação de modelos de fronteira se acumula rapidamente.
Esta semana, a Alibaba lançou o Qwen3.5-9B, um modelo de código aberto que corresponde ao Claude Opus 4.1 de dezembro de 2025. Ele roda localmente com 12GB de RAM. Três meses atrás, essa capacidade exigia um data center. Agora precisa de uma tomada de energia.
Um laptop de $5.000 — um MacBook Pro com memória suficiente para rodar o Qwen localmente — se paga sozinho após 556 milhões de tokens. Na minha taxa de uso, isso leva cerca de um mês. Com 20 milhões de tokens por dia, são quatro semanas. Após o retorno, o custo marginal cai para eletricidade. Não é um compromisso de inteligência. Raciocínio, programação, fluxos de trabalho agentes, processamento de documentos, instruções de seguir: o modelo 9B corresponde à fronteira de dezembro em todos os aspectos.
@twlvone Mais computação não ajuda além de algum nível de precisão na chamada de ferramentas
60