Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por $ 10 / hora, puede autoalojar Kimi y generar historias (o cualquier otra cosa) a 440 tokens / seg en 8 GPU H200 con Prime Intellect.
La clave es no preocuparse por la latencia. Por ejemplo, si desea 26,400 tokens de 24 preguntas, puede autoalojar Kimi y obtenerlo en aproximadamente un minuto (una vez que todo esté en funcionamiento 😉 ).
Eso equivale a alrededor de $ 6 por millón de tokens de salida. ¡Muy bien!
Sin embargo, en Groq, Kimi K2-0905 (256k) cuesta $ 3.00 por millón de tokens de salida. Así que ni siquiera puedo autohospedarme más barato que Groq, al menos no con la carga y la configuración que probé. Pero sigue siendo aproximadamente un 2,5× más barato que el Sonnet 4.0, al que este modelo (según los puntos de referencia) es más o menos equivalente.
Creo que el autohospedaje de un modelo tan poderoso es increíblemente empoderador. O Groq está subsidiando fuertemente los tokens Kimi, o realmente tienen una tecnología increíble. 🙂
PD: Para preguntas breves similares, respondidas con solo unos pocos tokens, podemos obtener una salida de aproximadamente 573 tokens / segundo, lo que lleva a aproximadamente 150 000 avisos por hora. Entonces, 150K clasificaciones simples por hora para kimi k2 en 8xh200

38.4K
Populares
Ranking
Favoritas