DApp Store | Web3 Hub for hendelser og spill

Populære emner

Vi presenterer en forskningsforhåndsvisning av Self-Flow: en skalerbar tilnærming for trening av multimodale generative modeller. Multimodal generering krever ende-til-ende-læring på tvers av modaliteter: bilde, video, lyd, tekst – uten å være begrenset av eksterne modeller for representasjonslæring. Selvflyt adresserer dette med selvovervåket flytmatching som skalerer effektivt på tvers av modaliteter. Resultater: • Opptil 2,8 ganger raskere konvergens mellom modaliteter. • Forbedret tidsmessig konsistens i video • Skarpere tekstgjengivelse og typografi Dette er grunnleggende forskning for vår vei mot multimodal visuell intelligens.

Selvflyt forbedrer tidsmessig konsistens i videogenerering. 4B parameter multimodal modell trent på 6M videoer.

Renere typografi og tekstgjengivelse. 4B parameter multimodal modell trent på 200 millioner bilder.

Felles video-lyd-generering fra en enkelt modell (lyd på) 4B parameter multimodal modell trent på 2M lyd-video-par.

Selvflyt åpner en vei mot verdensmodeller: ved å kombinere visuell skalerbarhet med semantisk abstraksjon for planlegging og forståelse. Her er handlingsprediksjon fra en 675M-parametermodell.

62

Topp

Rangering

Favoritter