Presentamos un avance de investigación de Self-Flow: un enfoque escalable para entrenar modelos generativos multimodales. La generación multimodal requiere un aprendizaje de extremo a extremo a través de modalidades: imagen, video, audio, texto - sin estar limitado por modelos externos para el aprendizaje de representaciones. Self-Flow aborda esto con un emparejamiento de flujo auto-supervisado que escala de manera eficiente a través de modalidades. Resultados: • Hasta 2.8x más rápido en la convergencia a través de modalidades. • Mejora de la consistencia temporal en video • Renderizado de texto y tipografía más nítidos Esta es una investigación fundamental para nuestro camino hacia la inteligencia visual multimodal.
Self-Flow mejora la consistencia temporal en la generación de videos. Modelo multimodal de 4B parámetros entrenado en 6M videos.
Tipografía y renderizado de texto más limpios. Modelo multimodal con parámetro 4B entrenado en 200 millones de imágenes.
Generación conjunta de video-audio a partir de un solo modelo (sonido activado) Modelo multimodal de 4B parámetros entrenado con 2M pares de audio-video.
Self-Flow abre un camino hacia modelos del mundo: combinando escalabilidad visual con abstracción semántica para la planificación y comprensión. Aquí está la predicción de acción de un modelo de 675 millones de parámetros.
39