字節跳動發佈了名為 DreaMontage 的幀引導視頻生成技術,其核心在於實現“任意幀引導的一次性視頻生成”,創建無縫的長鏡頭和複雜的場景過渡。
https://dreamontage.github.io/DreaMontage/
DreaMontage 核心功能:
- 多關鍵幀條件生成: 用户可以在視頻的指定位置放置關鍵幀,模型將生成包含這些關鍵幀的視頻
- 多視頻片段過渡: 模型可以無縫連接多個視頻片段,實現平滑的場景或主題過渡
- 混合條件生成: 允許用户在任意時間戳插入圖像或視頻片段,生成連貫過渡視頻
- 末幀條件生成: 可以生成以給定圖像作為最後一幀的視頻。
- 視頻擴展: 能夠對現有視頻進行內容和時長的擴展。
據介紹,DreaMontage 框架專為任意幀引導生成設計,能從多樣化用户輸入中合成無縫銜接、富有表現力且時長可控的單鏡頭視頻。
據介紹,DreaMontage 通過三大維度攻克技術難點:
- 在 DiT 架構中集成輕量級中間條件機制。通過採用有效利用基礎訓練數據的自適應調諧策略,我們實現了強大的任意幀控制能力。
- 為提升視覺保真度與電影表現力,我們精心構建高質量數據集並實現視覺表達 SFT 階段。針對主體運動合理性與過渡平滑度等關鍵問題,我們應用定製化 DPO 方案,顯著提升生成內容的成功率與可用性。
- 為支持長序列生成,我們設計出內存高效的分段自迴歸(SAR)推理策略。大量實驗表明,該方案在保持計算效率的同時,可實現視覺震撼且無縫銜接的單鏡頭效果,賦能用户將碎片化影像素材轉化為生動連貫的電影級體驗。
論文地址:https://arxiv.org/abs/2512.21252