Pentru 10 USD/oră, puteți găzdui Kimi și puteți genera povești (sau orice altceva) la 440 de jetoane/secundă pe 8 GPU-uri H200 cu Prime Intellect. Cheia este să nu vă faceți griji cu privire la latență. De exemplu, dacă doriți 26.400 de jetoane din 24 de întrebări, puteți găzdui Kimi și le puteți obține în aproximativ un minut (odată ce totul este în funcțiune 😉). Asta înseamnă aproximativ 6 dolari pe milion de jetoane de ieșire. Destul de tare! Pe Groq, însă, Kimi K2-0905 (256k) este de 3,00 dolari pe milion de jetoane de ieșire. Așa că nici măcar nu pot găzdui mai ieftin decât Groq - cel puțin nu cu încărcarea și setările pe care le-am încercat. Dar este totuși cu aproximativ 2,5× mai ieftin decât Sonnet 4.0, cu care acest model (conform benchmark-urilor) este aproximativ echivalent. Cred că auto-găzduirea unui model atât de puternic este incredibil de puternică. Fie Groq subvenționează puternic jetoanele Kimi, fie au cu adevărat o tehnologie uimitoare. 🙂 PS: Pentru întrebări scurte similare, la care răspundem doar câteva jetoane, putem obține aproximativ 573 de jetoane/secundă, ceea ce duce la aproximativ 150 000 de solicitări pe oră. Deci 150K clasificări simple pe oră pentru kimi k2 pe 8xh200
47,13K