Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Per $10/ora, puoi auto-ospitare Kimi e generare storie (o qualsiasi altra cosa) a 440 token/sec su 8 GPU H200 con Prime Intellect.
La chiave è non preoccuparsi della latenza. Ad esempio, se vuoi 26.400 token da 24 domande, puoi auto-ospitare Kimi e ottenerli in circa un minuto (una volta che tutto è attivo e funzionante 😉).
Questo si traduce in circa $6 per milione di token in output. Piuttosto interessante!
Su Groq, però, Kimi K2-0905 (256k) costa $3,00 per milione di token in output. Quindi non posso nemmeno auto-ospitare a un costo inferiore rispetto a Groq—almeno non con il carico e le impostazioni che ho provato. Ma è comunque circa 2,5 volte più economico di Sonnet 4.0, a cui questo modello (secondo i benchmark) è approssimativamente equivalente.
Penso che auto-ospitare un modello così potente sia incredibilmente potenziante. O Groq sta sovvenzionando pesantemente i token Kimi, o hanno davvero una tecnologia straordinaria. 🙂
ps: per domande brevi simili, risposte fornite da pochi token, possiamo ottenere circa 573 token/secondo in output, portando a circa 150.000 richieste all'ora. Quindi 150K classificazioni semplici all'ora per Kimi K2 su 8xH200.

47,13K
Principali
Ranking
Preferiti