Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por US$ 10/hora, você pode auto-hospedar o Kimi e gerar histórias (ou qualquer outra coisa) a 440 tokens/s em 8 GPUs H200 com Prime Intellect.
A chave é não se preocupar com a latência. Por exemplo, se você quiser 26.400 tokens de 24 perguntas, você pode auto-hospedar o Kimi e obtê-lo em cerca de um minuto (quando tudo estiver funcionando 😉).
Isso equivale a cerca de US$ 6 por milhão de tokens de saída. Muito legal!
No Groq, porém, Kimi K2-0905 (256k) custa US$ 3,00 por milhão de tokens de saída. Portanto, não consigo nem me hospedar mais barato que o Groq - pelo menos não com a carga e as configurações que tentei. Mas ainda é cerca de 2,5× mais barato que o Sonnet 4.0, ao qual este modelo (de acordo com os benchmarks) é aproximadamente equivalente.
Acho que a auto-hospedagem de um modelo tão poderoso é incrivelmente empoderadora. Ou a Groq está subsidiando fortemente os tokens Kimi, ou eles realmente têm uma tecnologia incrível. 🙂
PS: Para perguntas curtas semelhantes, respondidas por apenas alguns tokens, podemos obter cerca de 573 tokens/segundo de saída, levando a cerca de 150.000 prompts por hora. Portanto, 150 mil classificações simples por hora para kimi k2 em 8xh200

53,27K
Melhores
Classificação
Favoritos