Çok modlu üretken modelleri eğitmek için ölçeklenebilir bir yaklaşım olan Self-Flow adlı bir araştırma önizlemesini sunuyoruz. Çok modal üretim, tasvir, video, ses, metin modaliteleri arasında uçtan uca öğrenmeyi gerektirir - temsil öğrenimi için harici modellerle sınırlandırılmaz. Self-Flow, bu durumu, modaliteler arasında verimli ölçeklenen kendi denetimli akış eşleştirme yöntemiyle çözer. Sonuçlar: • Modaliteler arasında 2,8 katına kadar daha hızlı yakınsama. • Videoda zamansal tutarlılığın iyileştirilmesi • Daha keskin metin renderı ve tipografi Bu, çok modlu görsel zekaya giden yolumuz için temel araştırmadır.
Kendi Akışı, video üretiminde zamansal tutarlılığı artırır. 6M videolar üzerinde eğitilen 4B parametreli çok modlu model.
Daha temiz tipografi ve metin renderı. 200M görüntülerde eğitilen 4B parametreli çok modlu model.
Tek bir modelden ortak video-ses üretimi (ses açık) 2M ses-video çiftleri üzerinde eğitilmiş 4B parametreli çok modlu model.
Self-Flow, görsel ölçeklenebilirlikle semantik soyutlama ile planlama ve anlama için birleştirerek dünya modellerine bir yol açar. İşte 675M parametre modelinden eylem tahmini.
64