We presenteren een onderzoeksvooruitzicht van Self-Flow: een schaalbare benadering voor het trainen van multimodale generatieve modellen. Multimodale generatie vereist end-to-end leren over modaliteiten: afbeelding, video, audio, tekst - zonder beperkt te worden door externe modellen voor representatieleren. Self-Flow pakt dit aan met zelf-gecontroleerde flow-matching die efficiënt schaalt over modaliteiten. Resultaten: • Tot 2,8x snellere convergentie over modaliteiten. • Verbeterde temporele consistentie in video • Scherper tekstrendering en typografie Dit is fundamenteel onderzoek voor onze weg naar multimodale visuele intelligentie.
Self-Flow verbetert de temporele consistentie in video-generatie. 4B parameter multi-modale model getraind op 6M video's.
Nettere typografie en tekstweergave. 4B parameter multi-modale model getraind op 200M afbeeldingen.
Gezamenlijke video-audio generatie vanuit een enkel model (geluid aan) 4B parameter multi-modale model getraind op 2M audio-video paren.
Self-Flow opent een pad naar wereldmodellen: het combineren van visuele schaalbaarheid met semantische abstractie voor planning en begrip. Hier is actievoorspelling van een model met 675M parameters.
58