热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们呈现了 Self-Flow 的研究预览:一种可扩展的多模态生成模型训练方法。
多模态生成需要跨模态的端到端学习:图像、视频、音频、文本——而不受限于外部模型进行表示学习。Self-Flow 通过自监督流匹配来解决这个问题,能够在各个模态之间高效扩展。
结果:
• 在各个模态中收敛速度提高了最多 2.8 倍。
• 视频中的时间一致性得到了改善。
• 文本渲染和排版更清晰。
这是我们迈向多模态视觉智能的基础研究。

Self-Flow 提升了视频生成中的时间一致性。
在 600 万个视频上训练的 4B 参数多模态模型。
更清晰的排版和文本渲染。
基于2亿张图像训练的4B参数多模态模型。


从单一模型生成联合视频音频(声音开启)
基于200万对音频-视频数据训练的4B参数多模态模型。
Self-Flow 开辟了一条通向世界模型的道路:将视觉可扩展性与语义抽象相结合,以进行规划和理解。
这是来自一个 675M 参数模型的动作预测。
42
热门
排行
收藏
