Vi presenterer en forskningsforhåndsvisning av Self-Flow: en skalerbar tilnærming for trening av multimodale generative modeller. Multimodal generering krever ende-til-ende-læring på tvers av modaliteter: bilde, video, lyd, tekst – uten å være begrenset av eksterne modeller for representasjonslæring. Selvflyt adresserer dette med selvovervåket flytmatching som skalerer effektivt på tvers av modaliteter. Resultater: • Opptil 2,8 ganger raskere konvergens mellom modaliteter. • Forbedret tidsmessig konsistens i video • Skarpere tekstgjengivelse og typografi Dette er grunnleggende forskning for vår vei mot multimodal visuell intelligens.
Selvflyt forbedrer tidsmessig konsistens i videogenerering. 4B parameter multimodal modell trent på 6M videoer.
Renere typografi og tekstgjengivelse. 4B parameter multimodal modell trent på 200 millioner bilder.
Felles video-lyd-generering fra en enkelt modell (lyd på) 4B parameter multimodal modell trent på 2M lyd-video-par.
Selvflyt åpner en vei mot verdensmodeller: ved å kombinere visuell skalerbarhet med semantisk abstraksjon for planlegging og forståelse. Her er handlingsprediksjon fra en 675M-parametermodell.
62