Environments Hub был запущен неделю назад, и мы уже собрали более 100 окружений.
Они варьируются от доказательства теорем, генерации ядер, научного QA, использования браузеров и многого другого. Каждое внесенное окружение смещает баланс власти в сторону открытого ИИ.
Некоторые основные моменты:
За $10 в час вы можете самостоятельно хостить Kimi и генерировать истории (или что угодно еще) со скоростью 440 токенов в секунду на 8 H200 GPU с Prime Intellect.
Ключевое здесь — не беспокоиться о задержках. Например, если вам нужно 26,400 токенов из 24 вопросов, вы можете самостоятельно хостить Kimi и получить это примерно за минуту (как только все будет запущено 😉).
Это обойдется примерно в $6 за миллион выходных токенов. Довольно круто!
Но на Groq Kimi K2-0905 (256k) стоит $3.00 за миллион выходных токенов. Так что я не могу даже самостоятельно хостить дешевле, чем на Groq — по крайней мере, не с той нагрузкой и настройками, которые я пробовал. Но это все равно примерно в 2.5 раза дешевле, чем Sonnet 4.0, который, согласно бенчмаркам, примерно эквивалентен этой модели.
Я думаю, что самостоятельный хостинг такой мощной модели невероятно вдохновляет. Либо Groq сильно субсидирует токены Kimi, либо у них действительно потрясающая технология. 🙂
P.S.: для коротких похожих вопросов, на которые отвечают всего несколькими токенами, мы можем получать около 573 токенов/секунду, что приводит к примерно 150 000 запросов в час. Так что 150K простых классификаций в час для Kimi K2 на 8xH200.
Environments Hub был запущен неделю назад, и мы уже собрали более 100 окружений.
Они варьируются от доказательства теорем, генерации ядер, научного QA, использования браузеров и многого другого. Каждое внесенное окружение смещает баланс власти в сторону открытого ИИ.
Некоторые основные моменты: