Per $10/ora, puoi auto-ospitare Kimi e generare storie (o qualsiasi altra cosa) a 440 token/sec su 8 GPU H200 con Prime Intellect. La chiave è non preoccuparsi della latenza. Ad esempio, se vuoi 26.400 token da 24 domande, puoi auto-ospitare Kimi e ottenerli in circa un minuto (una volta che tutto è attivo e funzionante 😉). Questo si traduce in circa $6 per milione di token in output. Piuttosto interessante! Su Groq, però, Kimi K2-0905 (256k) costa $3,00 per milione di token in output. Quindi non posso nemmeno auto-ospitare a un costo inferiore rispetto a Groq—almeno non con il carico e le impostazioni che ho provato. Ma è comunque circa 2,5 volte più economico di Sonnet 4.0, a cui questo modello (secondo i benchmark) è approssimativamente equivalente. Penso che auto-ospitare un modello così potente sia incredibilmente potenziante. O Groq sta sovvenzionando pesantemente i token Kimi, o hanno davvero una tecnologia straordinaria. 🙂 ps: per domande brevi simili, risposte fornite da pochi token, possiamo ottenere circa 573 token/secondo in output, portando a circa 150.000 richieste all'ora. Quindi 150K classificazioni semplici all'ora per Kimi K2 su 8xH200.
47,13K