Por $ 10 / hora, puede autoalojar Kimi y generar historias (o cualquier otra cosa) a 440 tokens / seg en 8 GPU H200 con Prime Intellect. La clave es no preocuparse por la latencia. Por ejemplo, si desea 26,400 tokens de 24 preguntas, puede autoalojar Kimi y obtenerlo en aproximadamente un minuto (una vez que todo esté en funcionamiento 😉 ). Eso equivale a alrededor de $ 6 por millón de tokens de salida. ¡Muy bien! Sin embargo, en Groq, Kimi K2-0905 (256k) cuesta $ 3.00 por millón de tokens de salida. Así que ni siquiera puedo autohospedarme más barato que Groq, al menos no con la carga y la configuración que probé. Pero sigue siendo aproximadamente un 2,5× más barato que el Sonnet 4.0, al que este modelo (según los puntos de referencia) es más o menos equivalente. Creo que el autohospedaje de un modelo tan poderoso es increíblemente empoderador. O Groq está subsidiando fuertemente los tokens Kimi, o realmente tienen una tecnología increíble. 🙂 PD: Para preguntas breves similares, respondidas con solo unos pocos tokens, podemos obtener una salida de aproximadamente 573 tokens / segundo, lo que lleva a aproximadamente 150 000 avisos por hora. Entonces, 150K clasificaciones simples por hora para kimi k2 en 8xh200
38.4K