Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apresentamos uma prévia de pesquisa sobre Self-Flow: uma abordagem escalável para treinar modelos generativos multimodais.
A geração multimodal requer aprendizado de ponta a ponta entre modalidades: imagem, vídeo, áudio, texto - sem ser limitada por modelos externos para aprendizagem de representações. O Auto-Fluxo resolve isso com o ajuste de fluxo auto-supervisionado que escala eficientemente entre modalidades.
Resultados:
• Convergência até 2,8x mais rápida entre modalidades.
• Melhora da consistência temporal no vídeo
• Renderização de texto mais nítida e tipografia
Esta é uma pesquisa fundamental para nosso caminho rumo à inteligência visual multimodal.

O Self-Flow melhora a consistência temporal na geração de vídeo.
Modelo multimodal de parâmetro 4B treinado em vídeos de 6M.
Tipografia e renderização de texto mais limpas.
Modelo multimodal com parâmetro 4B treinado em imagens de 200M.


Geração conjunta de vídeo e áudio a partir de um único modelo (som ligado)
Modelo multimodal de 4B paramétrico treinado em pares áudio-vídeo de 2M.
O Self-Flow abre caminho para modelos de mundo: combinando escalabilidade visual com abstração semântica para planejamento e compreensão.
Aqui está a previsão de ação de um modelo de parâmetros 675M.
40
Melhores
Classificação
Favoritos
