私たちは『Self-Flow: a scalable approach for training multi-modal genative models』の研究プレビューを紹介します。 マルチモーダル生成は、画像、映像、音声、テキストといったモダリティを横断して、表象学習の外部モデルに制限されることなくエンドツーエンドの学習を必要とします。セルフフローは、モダリティを超えて効率的にスケールできる自己監督フローマッチングでこれに対応します。 結果: • モダリティ間で最大2.8倍の高速収束。 ・動画における時間的一貫性の向上 ・より鮮明なテキスト表示とタイポグラフィ これはマルチモーダル視覚知能への道のりの基礎研究です。
セルフフローは動画生成における時間的一貫性を向上させます。 6M動画で訓練された4Bパラメータマルチモーダルモデル。
よりクリーンなタイポグラフィとテキストレンダリング。 4Bパラメータのマルチモーダルモデルは2億枚の画像で訓練されました。
単一モデル(音声オン)からの共同映像・音声生成 4Bパラメータマルチモーダルモデルは2Mの音声・映像ペアで訓練されました。
セルフフローは、視覚的なスケーラビリティと意味抽象化を組み合わせて計画と理解を図る世界モデルへの道を開きます。 こちらは6億7千500万パラメータモデルからのアクション予測です。
86