Environments Hub se lanzó hace una semana y ya hemos colaborado con 100+ entornos.
Desde la demostración de teoremas, la generación de kernels, el control de calidad científico, el uso del navegador y más. Cada entorno contribuido cambia el equilibrio de poder hacia la IA de código abierto.
Algunos aspectos destacados:
Por $ 10 / hora, puede autoalojar Kimi y generar historias (o cualquier otra cosa) a 440 tokens / seg en 8 GPU H200 con Prime Intellect.
La clave es no preocuparse por la latencia. Por ejemplo, si desea 26,400 tokens de 24 preguntas, puede autoalojar Kimi y obtenerlo en aproximadamente un minuto (una vez que todo esté en funcionamiento 😉 ).
Eso equivale a alrededor de $ 6 por millón de tokens de salida. ¡Muy bien!
Sin embargo, en Groq, Kimi K2-0905 (256k) cuesta $ 3.00 por millón de tokens de salida. Así que ni siquiera puedo autohospedarme más barato que Groq, al menos no con la carga y la configuración que probé. Pero sigue siendo aproximadamente un 2,5× más barato que el Sonnet 4.0, al que este modelo (según los puntos de referencia) es más o menos equivalente.
Creo que el autohospedaje de un modelo tan poderoso es increíblemente empoderador. O Groq está subsidiando fuertemente los tokens Kimi, o realmente tienen una tecnología increíble. 🙂
PD: Para preguntas breves similares, respondidas con solo unos pocos tokens, podemos obtener una salida de aproximadamente 573 tokens / segundo, lo que lleva a aproximadamente 150 000 avisos por hora. Entonces, 150K clasificaciones simples por hora para kimi k2 en 8xh200
Environments Hub se lanzó hace una semana y ya hemos colaborado con 100+ entornos.
Desde la demostración de teoremas, la generación de kernels, el control de calidad científico, el uso del navegador y más. Cada entorno contribuido cambia el equilibrio de poder hacia la IA de código abierto.
Algunos aspectos destacados: