За $10 в час вы можете самостоятельно хостить Kimi и генерировать истории (или что угодно еще) со скоростью 440 токенов в секунду на 8 H200 GPU с Prime Intellect. Ключевое здесь — не беспокоиться о задержках. Например, если вам нужно 26,400 токенов из 24 вопросов, вы можете самостоятельно хостить Kimi и получить это примерно за минуту (как только все будет запущено 😉). Это обойдется примерно в $6 за миллион выходных токенов. Довольно круто! Но на Groq Kimi K2-0905 (256k) стоит $3.00 за миллион выходных токенов. Так что я не могу даже самостоятельно хостить дешевле, чем на Groq — по крайней мере, не с той нагрузкой и настройками, которые я пробовал. Но это все равно примерно в 2.5 раза дешевле, чем Sonnet 4.0, который, согласно бенчмаркам, примерно эквивалентен этой модели. Я думаю, что самостоятельный хостинг такой мощной модели невероятно вдохновляет. Либо Groq сильно субсидирует токены Kimi, либо у них действительно потрясающая технология. 🙂 P.S.: для коротких похожих вопросов, на которые отвечают всего несколькими токенами, мы можем получать около 573 токенов/секунду, что приводит к примерно 150 000 запросов в час. Так что 150K простых классификаций в час для Kimi K2 на 8xH200.
47,13K