热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
LTX-2.3 是一次重大升级。
它是一个生产就绪的多模态引擎 - 旨在进行构建。
以下是新功能 🧵
1/7
今天发货:
→ 完整代码、模型权重和训练代码
→ 生产集成的API访问
→ 用于基于网络生成的LTX Studio
在本地运行。微调它。直接将其集成到您的工作流程中。
2/7
最大的升级是视觉保真度和运动稳定性。
一个新的视频VAE和精炼的潜在空间提供了更清晰的细节和更稳定的运动。
图像到视频的连接更好,小纹理在压缩中得以保留,最后一帧的插值使结尾感觉更有意图。
我们还应用了更激进的数据过滤和改进的数据处理,这直接提高了细致的视觉细节并减少了伪影。
3/7
对提示的理解也取得了实质性的进展。
更大的文本连接器改善了模型对相机运动、场景构图和角色动作的解读。
您不再需要过度设计提示以获得可预测的结果。
在底层,自适应归一化和门控注意力在不增加复杂性的情况下加强了控制。
4/7
关键帧和结构化控制现在更加深入地集成。
LTX-2.3 在预训练阶段通过多任务目标进行训练,包括图像到视频、重拍、关键帧等。
这使得过渡、受控场景演变和多镜头工作流程更加一致和可靠。
5/7
音频质量在各个方面都有所提升。
新的声码器提高了对话的清晰度和声音的真实感。音频和视频之间的跨模态对齐更加紧密。
更强的过滤和改进的数据处理减少了噪音输出,提高了整体音频保真度。
6/7
173
热门
排行
收藏
