一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Andrej Karpathy

建筑@EurekaLabsAI。曾任人工智能总监@特斯拉，创始团队@OpenAI，CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。

随着对代币需求的激增，存在着重组底层内存+计算的重大机会，以便为LLMs提供*恰到好处*的支持。根本且不明显的限制是，由于芯片制造过程，你会得到两个完全不同的内存池（物理实现也不同）：1）紧邻计算单元的片上SRAM，速度极快但容量非常低；2）离芯片的DRAM，容量极高，但其内容只能通过一根长吸管来提取。除此之外，架构的许多细节（例如，脉动阵列）、数值等也会影响。设计最佳的物理基底，然后在LLMs的顶层工作流（推理预填充/解码、训练/微调等）中协调内存+计算，以获得最佳的吞吐量/延迟/$，可能是今天最有趣的智力难题，回报最高（\cite 4.6T的NVDA）。所有这些都是为了快速且便宜地获取许多代币。可以说，最重要的工作流（推理解码*和*在紧密的代理循环中处理长代币上下文）是最难以同时实现的，~现有的两派（以HBM为先的NVIDIA相关和以SRAM为先的Cerebras相关）都面临挑战。无论如何，MatX团队的表现非常出色，我很高兴能有小小的参与，并祝贺你们的融资成功！