热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
我也有同样的想法,所以我一直在 nanochat 中玩这个。例如,这里有 8 个代理(4 个 Claude,4 个 Codex),每个代理都有 1 个 GPU 运行 nanochat 实验(试图删除 logit softcap 而不出现回归)。总结一下,它不工作,而且一团糟……但看起来还是很漂亮 :)
我尝试了几种设置:8 个独立的单人研究者,1 个首席科学家给 8 个初级研究者分配工作,等等。每个研究项目都是一个 git 分支,每个科学家将其分叉到一个功能分支,使用 git worktrees 进行隔离,简单的文件用于通信,暂时跳过 Docker/VM 以简化(我发现说明足以防止干扰)。研究组织在 tmux 窗口网格的交互式会话中运行(像 Teams 一样),这样看起来很漂亮,可以看到他们的个人工作,并在需要时“接管”,即没有 -p。
但好吧,迄今为止它不工作的原因是代理的想法一开始就很糟糕,即使在最高智能下也是如此。他们没有仔细考虑实验设计,运行了一些不太合理的变体,没有创建强基线,也没有正确消融事物,没有仔细控制运行时间或 flops。(举个例子,昨天一个代理“发现”增加网络的隐藏层大小可以改善验证损失,这在无限数据情况下是一个完全虚假的结果,因为更大的网络在无限数据情况下会有更低的验证损失,但它训练的时间也更长,我不明白为什么我必须进来指出这一点)。他们非常擅长实施任何给定的、范围明确且描述清晰的想法,但他们并不能创造性地生成这些想法。
但目标是你现在正在编程一个组织(例如,一个“研究组织”)及其各个代理,因此“源代码”是构成它的提示、技能、工具等和流程的集合。例如,早上的每日站会现在是“组织代码”的一部分。而优化 nanochat 预训练只是众多任务之一(几乎像评估一样)。那么——给定一个任意任务,你的研究组织多快能在其上产生进展?

Thomas Wolf2026年2月28日
为什么NanoGPT速通挑战到现在还没有完全由AI自动化研究?
879
随着对代币需求的激增,存在着重组底层内存+计算的重大机会,以便为LLMs提供*恰到好处*的支持。
根本且不明显的限制是,由于芯片制造过程,你会得到两个完全不同的内存池(物理实现也不同):1)紧邻计算单元的片上SRAM,速度极快但容量非常低;2)离芯片的DRAM,容量极高,但其内容只能通过一根长吸管来提取。除此之外,架构的许多细节(例如,脉动阵列)、数值等也会影响。
设计最佳的物理基底,然后在LLMs的顶层工作流(推理预填充/解码、训练/微调等)中协调内存+计算,以获得最佳的吞吐量/延迟/$,可能是今天最有趣的智力难题,回报最高(\cite 4.6T的NVDA)。所有这些都是为了快速且便宜地获取许多代币。可以说,最重要的工作流(推理解码*和*在紧密的代理循环中处理长代币上下文)是最难以同时实现的,~现有的两派(以HBM为先的NVIDIA相关和以SRAM为先的Cerebras相关)都面临挑战。无论如何,MatX团队的表现非常出色,我很高兴能有小小的参与,并祝贺你们的融资成功!

Reiner Pope2026年2月25日
我们正在构建一款 LLM 芯片,能够提供比其他任何芯片更高的吞吐量,同时实现最低的延迟。我们称之为 MatX One。
MatX One 芯片基于可拆分的脉动阵列,具有大型脉动阵列所著名的能量和面积效率,同时在具有灵活形状的小型矩阵上也能实现高利用率。该芯片结合了 SRAM 优先设计的低延迟和 HBM 的长上下文支持。这些元素,加上对数值的新颖看法,使得在 LLM 上的吞吐量超过任何已宣布的系统,同时与 SRAM 优先设计的延迟相匹配。更高的吞吐量和更低的延迟为您的订阅提供了更智能、更快速的模型。
我们已经筹集了 5 亿美元的 B 轮融资,以完成开发并快速扩大生产,预计在一年内完成流片。此次融资由 Jane Street 领投,这是一家最具技术敏感度的华尔街公司,以及 Situational Awareness LP,其创始人 @leopoldasch 撰写了关于 AGI 的权威备忘录。参与者包括 @sparkcapital、@danielgross 和 @natfriedman 的基金、@patrickc 和 @collision、@TriatomicCap、@HarpoonVentures、@karpathy、@dwarkesh_sp 等。我们还欢迎来自供应链的投资者,包括 Marvell 和 Alchip。
@MikeGunter_ 和我创立 MatX 是因为我们认为,最适合 LLM 的芯片应该从第一原则出发,深入理解 LLM 的需求及其演变方式。我们愿意放弃小模型性能、低容量工作负载,甚至编程的简易性,以实现这样的芯片。
我们现在是一支 100 人的团队,团队成员思考的内容涵盖学习率调度、Swing Modulo Scheduling、保护/舍入/粘性位、盲配连接——所有这些都在同一栋建筑内。如果您想帮助我们架构、设计和部署多代芯片的大规模生产,欢迎考虑加入我们。
480
热门
排行
收藏
