字節跳動團隊發佈 DreaMontage,幀引導視頻生成技術

新聞
HongKong
7
07:18 PM · Dec 26 ,2025

字節跳動發佈了名為 DreaMontage 的幀引導視頻生成技術,其核心在於實現“任意幀引導的一次性視頻生成”,創建無縫的長鏡頭和複雜的場景過渡。

https://dreamontage.github.io/DreaMontage/

DreaMontage 核心功能:

  • 多關鍵幀條件生成: 用户可以在視頻的指定位置放置關鍵幀,模型將生成包含這些關鍵幀的視頻
  • 多視頻片段過渡: 模型可以無縫連接多個視頻片段,實現平滑的場景或主題過渡
  • 混合條件生成: 允許用户在任意時間戳插入圖像或視頻片段,生成連貫過渡視頻
  • 末幀條件生成: 可以生成以給定圖像作為最後一幀的視頻。
  • 視頻擴展: 能夠對現有視頻進行內容和時長的擴展。

 

據介紹,DreaMontage 框架專為任意幀引導生成設計,能從多樣化用户輸入中合成無縫銜接、富有表現力且時長可控的單鏡頭視頻。

據介紹,DreaMontage 通過三大維度攻克技術難點:

  1. 在 DiT 架構中集成輕量級中間條件機制。通過採用有效利用基礎訓練數據的自適應調諧策略,我們實現了強大的任意幀控制能力。
  2. 為提升視覺保真度與電影表現力,我們精心構建高質量數據集並實現視覺表達 SFT 階段。針對主體運動合理性與過渡平滑度等關鍵問題,我們應用定製化 DPO 方案,顯著提升生成內容的成功率與可用性。
  3. 為支持長序列生成,我們設計出內存高效的分段自迴歸(SAR)推理策略。大量實驗表明,該方案在保持計算效率的同時,可實現視覺震撼且無縫銜接的單鏡頭效果,賦能用户將碎片化影像素材轉化為生動連貫的電影級體驗。

論文地址:https://arxiv.org/abs/2512.21252

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.