LTX-2.3 是一次重大的升級。 這是一個準備投入生產的多模態引擎 - 設計上可以進行擴展。 以下是新功能 🧵 1/7
今天發貨: → 完整的代碼、模型權重和訓練代碼 → 用於生產集成的API訪問 → 用於基於網頁生成的LTX Studio 在本地運行。微調它。直接將其集成到您的工作流程中。 2/7
最大的升級是視覺真實感和運動穩定性。 一個新的視頻VAE和精煉的潛在空間提供了更清晰的細節和更穩定的運動。 圖像到視頻的連接更好,小紋理在壓縮中存活下來,最後幀插值使結尾感覺更有意圖。 我們還應用了更積極的數據過濾和改進的數據處理,這直接改善了細微的視覺細節並減少了伪影。 3/7
提示理解也邁出了實質性的一步。 更大的文本連接器改善了模型對相機運動、場景構圖和角色行動的解釋。 您不再需要過度設計提示以獲得可預測的結果。 在底層,自適應正規化和門控注意力在不增加複雜性的情況下加強了控制。 4/7
關鍵幀和結構化控制現在更深入地整合在一起。 LTX-2.3 在預訓練階段以多任務目標進行訓練,包括圖像到視頻、重拍、關鍵幀等。 這使得過渡、受控場景演變和多鏡頭工作流程變得更加一致和可靠。 5/7
音質在各方面也有所改善。 一個新的聲碼器提高了對話的清晰度和聲音的真實感。音頻和視頻之間的跨模態對齊更加緊密。 更強的過濾和改進的數據處理減少了噪音輸出,並提高了整體音頻的保真度。 6/7
62