Por US$ 10/hora, você pode auto-hospedar o Kimi e gerar histórias (ou qualquer outra coisa) a 440 tokens/s em 8 GPUs H200 com Prime Intellect. A chave é não se preocupar com a latência. Por exemplo, se você quiser 26.400 tokens de 24 perguntas, você pode auto-hospedar o Kimi e obtê-lo em cerca de um minuto (quando tudo estiver funcionando 😉). Isso equivale a cerca de US$ 6 por milhão de tokens de saída. Muito legal! No Groq, porém, Kimi K2-0905 (256k) custa US$ 3,00 por milhão de tokens de saída. Portanto, não consigo nem me hospedar mais barato que o Groq - pelo menos não com a carga e as configurações que tentei. Mas ainda é cerca de 2,5× mais barato que o Sonnet 4.0, ao qual este modelo (de acordo com os benchmarks) é aproximadamente equivalente. Acho que a auto-hospedagem de um modelo tão poderoso é incrivelmente empoderadora. Ou a Groq está subsidiando fortemente os tokens Kimi, ou eles realmente têm uma tecnologia incrível. 🙂 PS: Para perguntas curtas semelhantes, respondidas por apenas alguns tokens, podemos obter cerca de 573 tokens/segundo de saída, levando a cerca de 150.000 prompts por hora. Portanto, 150 mil classificações simples por hora para kimi k2 em 8xh200
53,27K