Vi presenterar en forskningsöversikt av Self-Flow: en skalbar metod för träning av multimodala generativa modeller. Multimodal generering kräver end-to-end-inlärning över olika modaliteter: bild, video, ljud, text – utan att begränsas av externa modeller för representationsinlärning. Self-Flow hanterar detta med självövervakad flödesmatchning som skalar effektivt över olika modaliteter. Resultat: • Upp till 2,8 gånger snabbare konvergens mellan modaliteter. • Förbättrad tidsmässig konsistens i video • Skarpare textrendering och typografi Detta är grundläggande forskning för vår väg mot multimodal visuell intelligens.
Självflöde förbättrar den tidsmässiga konsekvensen i videogenerering. 4B parameter multimodal modell tränad på 6 miljoner videor.
Renare typografi och textrendering. 4B parameter multimodal modell tränad på 200 miljoner bilder.
Gemensam video-ljudgenerering från en enda modell (ljud på) 4B-parameter multimodal modell tränad på 2M ljud-video-par.
Self-Flow öppnar en väg mot världsmodeller: att kombinera visuell skalbarhet med semantisk abstraktion för planering och förståelse. Här är en åtgärdsprognos från en 675M-parametermodell.
63