一个拥有240亿参数的模型刚刚在一台笔记本电脑上运行,并在不到半秒的时间内选择了正确的工具。 真正的故事是,调用工具的代理终于变得足够快,感觉像软件一样。 Liquid使用混合架构构建了LFM2-24B-A2B,该架构以1:3的比例混合了卷积块和分组查询注意力。 每个令牌仅激活23亿个参数,尽管完整模型拥有240亿个参数。 这种稀疏激活模式是它能够适应14.5 GB内存并在M4 Max上以385毫秒的速度调度工具的原因。 该架构是通过硬件在环搜索设计的,这意味着他们通过直接在将要运行的芯片上测试来优化模型结构。没有云翻译层。 没有API往返。模型、工具和您的数据都保留在机器上。 这解锁了之前不切实际的三件事: 1. 受监管行业可以在员工的笔记本电脑上运行代理,而数据不会离开设备。 2. 开发人员可以原型化多工具工作流程,而无需管理API密钥或速率限制。 3. 安全团队可以获得完整的审计记录,而无需供应商子处理器参与。 该模型在跨越13个MCP服务器的67个工具上实现了80%的单步工具选择准确率。 如果这种性能在规模上保持不变,则需要更新两个假设。 首先,设备上的代理不再是电池寿命的权衡;它们是合规特性。 其次,代理工作流程中的瓶颈正在从模型能力转向工具生态系统的成熟度。
088339
0883393月5日 23:55
> 385毫秒的平均工具选择。 > 13个MCP服务器上的67个工具。 > 14.5GB的内存占用。 > 零网络调用。 LocalCowork是一个在MacBook上运行的AI代理。开源。 🧵
来自 @liquidai @ramin_m_h 的惊人工作
327