LTX-2.3 是一次重大升级。 它是一个生产就绪的多模态引擎 - 旨在进行构建。 以下是新功能 🧵 1/7
今天发货: → 完整代码、模型权重和训练代码 → 生产集成的API访问 → 用于基于网络生成的LTX Studio 在本地运行。微调它。直接将其集成到您的工作流程中。 2/7
最大的升级是视觉保真度和运动稳定性。 一个新的视频VAE和精炼的潜在空间提供了更清晰的细节和更稳定的运动。 图像到视频的连接更好,小纹理在压缩中得以保留,最后一帧的插值使结尾感觉更有意图。 我们还应用了更激进的数据过滤和改进的数据处理,这直接提高了细致的视觉细节并减少了伪影。 3/7
对提示的理解也取得了实质性的进展。 更大的文本连接器改善了模型对相机运动、场景构图和角色动作的解读。 您不再需要过度设计提示以获得可预测的结果。 在底层,自适应归一化和门控注意力在不增加复杂性的情况下加强了控制。 4/7
关键帧和结构化控制现在更加深入地集成。 LTX-2.3 在预训练阶段通过多任务目标进行训练,包括图像到视频、重拍、关键帧等。 这使得过渡、受控场景演变和多镜头工作流程更加一致和可靠。 5/7
音频质量在各个方面都有所提升。 新的声码器提高了对话的清晰度和声音的真实感。音频和视频之间的跨模态对齐更加紧密。 更强的过滤和改进的数据处理减少了噪音输出,提高了整体音频保真度。 6/7
173