LTX-2.3 — це суттєве оновлення. Це готовий до виробництва мультимодальний рушій — розроблений для будівництва. Ось що нового 🧵 1/7
Доставка сьогодні: → Повний код, ваги моделі та навчальний код → API для інтеграції з виробництвом → LTX Studio для веб-генерації Запускайте локально. Відштовхуй його. Інтегруйте це безпосередньо у свої робочі процеси. 2/7
Найбільше покращення — це візуальна якість і стабільність руху. Новий відеоVAE та вдосконалений латентний простір забезпечують більш чіткі деталі та стабільніший рух. Зображення на відео краще тримається разом, маленькі текстури витримують стиснення, а інтерполяція в останньому кадрі робить фінали навмисними. Ми також застосували більш агресивну фільтрацію даних і покращили обробку даних, що безпосередньо покращує дрібні візуальні деталі та зменшує кількість артефактів. 3/7
Швидке розуміння також зробило справжній крок уперед. Більший текстовий з'єднувач покращує те, як модель інтерпретує рух камери, композицію сцени та дії персонажів. Вам більше не потрібно надмірно генерувати підказки, щоб отримати передбачувані результати. Під капотом адаптивна нормалізація та обмежена увага посилюють контроль, не збільшуючи складності. 4/7
Ключові кадри та структуроване керування тепер інтегровані глибше. LTX-2.3 навчається з багатозадачними цілями з етапу переднавчання, включаючи зображення на відео, повторні зйомки, ключові кадри та інше. Це робить переходи, контрольовану еволюцію сцени та багатокадрові робочі процеси більш послідовними та надійними. 5/7
Якість звуку також покращилася загалом. Новий вокодер підвищує чіткість діалогів і реалістичність звуку. Крос-модальне узгодження аудіо та відео є більш чітким. Сильніша фільтрація та покращена обробка даних зменшують шум виходів і покращують загальну якість звуку. 6/7
67