10 ドル/時間で、Kimi をセルフホストし、Prime Intellect を使用して 8 つの H200 GPU で 440 トークン/秒でストーリー (またはその他のもの) を生成できます。 重要なのは、遅延を気にしないことです。たとえば、24の質問から26,400トークンが必要な場合は、Kimiをセルフホストして、約1分で取得できます(すべてが稼働したら😉)。 これは、出力トークン100万枚あたり約6ドルに相当します。かなりかっこいいです! ただし、Groq では、Kimi K2-0905 (256k) は 100 万枚の出力トークンあたり 3.00 ドルです。そのため、Groqよりも安くセルフホストすることさえできません-少なくとも私が試した負荷と設定ではそうではありません。しかし、それでもこのモデル (ベンチマークによる) とほぼ同等の Sonnet 4.0 よりも約 2.5× 安いです。 このような強力なモデルをセルフホスティングすることは、信じられないほど力を与えてくれると思います。Groq が Kimi トークンに多額の補助金を出しているか、本当に素晴らしいテクノロジーを持っているかのどちらかです。🙂 PS:いくつかのトークンだけで答えられる短い同様の質問の場合、毎秒約573トークンの出力が得られ、1時間あたり約150,000のプロンプトになります。したがって、8xh200 の kimi k2 の 1 時間あたり 150K の単純な分類
38.4K