Kami menyajikan pratinjau penelitian Self-Flow: pendekatan yang dapat diskalakan untuk melatih model generatif multi-modal. Generasi multi-modal membutuhkan pembelajaran end-to-end di seluruh modalitas: gambar, video, audio, teks - tanpa dibatasi oleh model eksternal untuk pembelajaran representasi. Self-Flow mengatasi hal ini dengan pencocokan alur yang diawasi sendiri yang diskalakan secara efisien di seluruh modalitas. Hasil: • Konvergensi hingga 2,8x lebih cepat di seluruh modalitas. • Peningkatan konsistensi temporal dalam video • Rendering teks dan tipografi yang lebih tajam Ini adalah penelitian dasar untuk jalan kita menuju kecerdasan visual multimodal.
Self-Flow meningkatkan konsistensi temporal dalam pembuatan video. Model multi-modal parameter 4B dilatih pada video 6M.
Tipografi dan rendering teks yang lebih bersih. Model multi-modal parameter 4B dilatih pada 200 juta gambar.
Pembuatan video-audio bersama dari satu model (suara aktif) Model multi-moda parameter 4B dilatih pada pasangan audio-video 2M.
Self-Flow membuka jalan menuju model dunia: menggabungkan skalabilitas visual dengan abstraksi semantik untuk perencanaan dan pemahaman. Berikut adalah prediksi tindakan dari model parameter 675 juta.
65