Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми представляємо попередній огляд дослідження Self-Flow: масштабований підхід до навчання мультимодальних генеративних моделей.
Мультимодальна генерація вимагає наскрізного навчання на різних модальнях: зображення, відео, аудіо, текст — без обмежень зовнішніми моделями для навчання представлення. Self-Flow вирішує це за допомогою самоконтрольованого підбору потоків, що ефективно масштабується між різними модальностями.
Результати:
• До 2,8 разів швидша збіжність між модальностями.
• Покращена часова послідовність у відео
• Більш чітке відтворення тексту та типографіка
Це фундаментальне дослідження на шляху до мультимодального візуального інтелекту.

Self-Flow покращує часову послідовність у генерації відео.
Мультимодальна модель з параметрами 4B, навчена на 6M-відео.
Чистіша типографіка та рендеринг тексту.
Мультимодальна модель з параметром 4B, навчена на 200M зображеннях.


Спільне відео-аудіо генерування з однієї моделі (звук увімкнено)
Мультимодальна модель з параметрами 4B, навчена на 2M парах аудіо-відео.
Self-Flow відкриває шлях до моделей світу: поєднання візуальної масштабованості з семантичною абстракцією для планування та розуміння.
Ось прогноз дій за моделлю параметрів 675M.
63
Найкращі
Рейтинг
Вибране
