Apresentamos uma prévia de pesquisa sobre Self-Flow: uma abordagem escalável para treinar modelos generativos multimodais. A geração multimodal requer aprendizado de ponta a ponta entre modalidades: imagem, vídeo, áudio, texto - sem ser limitada por modelos externos para aprendizagem de representações. O Auto-Fluxo resolve isso com o ajuste de fluxo auto-supervisionado que escala eficientemente entre modalidades. Resultados: • Convergência até 2,8x mais rápida entre modalidades. • Melhora da consistência temporal no vídeo • Renderização de texto mais nítida e tipografia Esta é uma pesquisa fundamental para nosso caminho rumo à inteligência visual multimodal.
O Self-Flow melhora a consistência temporal na geração de vídeo. Modelo multimodal de parâmetro 4B treinado em vídeos de 6M.
Tipografia e renderização de texto mais limpas. Modelo multimodal com parâmetro 4B treinado em imagens de 200M.
Geração conjunta de vídeo e áudio a partir de um único modelo (som ligado) Modelo multimodal de 4B paramétrico treinado em pares áudio-vídeo de 2M.
O Self-Flow abre caminho para modelos de mundo: combinando escalabilidade visual com abstração semântica para planejamento e compreensão. Aqui está a previsão de ação de um modelo de parâmetros 675M.
40