一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们呈现了 Self-Flow 的研究预览：一种可扩展的多模态生成模型训练方法。多模态生成需要跨模态的端到端学习：图像、视频、音频、文本——而不受限于外部模型进行表示学习。Self-Flow 通过自监督流匹配来解决这个问题，能够在各个模态之间高效扩展。结果： • 在各个模态中收敛速度提高了最多 2.8 倍。 • 视频中的时间一致性得到了改善。 • 文本渲染和排版更清晰。这是我们迈向多模态视觉智能的基础研究。

Self-Flow 提升了视频生成中的时间一致性。在 600 万个视频上训练的 4B 参数多模态模型。

更清晰的排版和文本渲染。基于2亿张图像训练的4B参数多模态模型。

从单一模型生成联合视频音频（声音开启）基于200万对音频-视频数据训练的4B参数多模态模型。

Self-Flow 开辟了一条通向世界模型的道路：将视觉可扩展性与语义抽象相结合，以进行规划和理解。这是来自一个 675M 参数模型的动作预测。

42