我们呈现了 Self-Flow 的研究预览:一种可扩展的多模态生成模型训练方法。 多模态生成需要跨模态的端到端学习:图像、视频、音频、文本——而不受限于外部模型进行表示学习。Self-Flow 通过自监督流匹配来解决这个问题,能够在各个模态之间高效扩展。 结果: • 在各个模态中收敛速度提高了最多 2.8 倍。 • 视频中的时间一致性得到了改善。 • 文本渲染和排版更清晰。 这是我们迈向多模态视觉智能的基础研究。
Self-Flow 提升了视频生成中的时间一致性。 在 600 万个视频上训练的 4B 参数多模态模型。
更清晰的排版和文本渲染。 基于2亿张图像训练的4B参数多模态模型。
从单一模型生成联合视频音频(声音开启) 基于200万对音频-视频数据训练的4B参数多模态模型。
Self-Flow 开辟了一条通向世界模型的道路:将视觉可扩展性与语义抽象相结合,以进行规划和理解。 这是来自一个 675M 参数模型的动作预测。
42