17,000トークン毎秒!!もう一度読んで! LLMはシリコンに直接ハードワイヤードされています。HBMも水冷も使わず、純粋な特殊なハードウェアだけです。B200より10倍速く、20倍安いです。 「LLMが考えるのを待つ」時代は終わりました。コードは人間の思考の速度で生成されます。 ブルートフォースGPUクラスターから実際のAIアプライアンスへの移行。