Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentamos un avance de investigación de Self-Flow: un enfoque escalable para entrenar modelos generativos multimodales.
La generación multimodal requiere un aprendizaje de extremo a extremo a través de modalidades: imagen, video, audio, texto - sin estar limitado por modelos externos para el aprendizaje de representaciones. Self-Flow aborda esto con un emparejamiento de flujo auto-supervisado que escala de manera eficiente a través de modalidades.
Resultados:
• Hasta 2.8x más rápido en la convergencia a través de modalidades.
• Mejora de la consistencia temporal en video
• Renderizado de texto y tipografía más nítidos
Esta es una investigación fundamental para nuestro camino hacia la inteligencia visual multimodal.

Self-Flow mejora la consistencia temporal en la generación de videos.
Modelo multimodal de 4B parámetros entrenado en 6M videos.
Tipografía y renderizado de texto más limpios.
Modelo multimodal con parámetro 4B entrenado en 200 millones de imágenes.


Generación conjunta de video-audio a partir de un solo modelo (sonido activado)
Modelo multimodal de 4B parámetros entrenado con 2M pares de audio-video.
Self-Flow abre un camino hacia modelos del mundo: combinando escalabilidad visual con abstracción semántica para la planificación y comprensión.
Aquí está la predicción de acción de un modelo de 675 millones de parámetros.
39
Parte superior
Clasificación
Favoritos
