字節跳動團隊發佈 DreaMontage，幀引導視頻生成技術 - 新聞詳情 | YeLogs.com

字節跳動團隊發佈 DreaMontage，幀引導視頻生成技術

新聞

HongKong

56

07:18 PM · Dec 26 ,2025

字節跳動發佈了名為 DreaMontage 的幀引導視頻生成技術，其核心在於實現“任意幀引導的一次性視頻生成”，創建無縫的長鏡頭和複雜的場景過渡。

https://dreamontage.github.io/DreaMontage/

DreaMontage 核心功能：

多關鍵幀條件生成：用户可以在視頻的指定位置放置關鍵幀，模型將生成包含這些關鍵幀的視頻
多視頻片段過渡：模型可以無縫連接多個視頻片段，實現平滑的場景或主題過渡
混合條件生成：允許用户在任意時間戳插入圖像或視頻片段，生成連貫過渡視頻
末幀條件生成：可以生成以給定圖像作為最後一幀的視頻。
視頻擴展：能夠對現有視頻進行內容和時長的擴展。

據介紹，DreaMontage 框架專為任意幀引導生成設計，能從多樣化用户輸入中合成無縫銜接、富有表現力且時長可控的單鏡頭視頻。

據介紹，DreaMontage 通過三大維度攻克技術難點：

在 DiT 架構中集成輕量級中間條件機制。通過採用有效利用基礎訓練數據的自適應調諧策略，我們實現了強大的任意幀控制能力。
為提升視覺保真度與電影表現力，我們精心構建高質量數據集並實現視覺表達 SFT 階段。針對主體運動合理性與過渡平滑度等關鍵問題，我們應用定製化 DPO 方案，顯著提升生成內容的成功率與可用性。
為支持長序列生成，我們設計出內存高效的分段自迴歸（SAR）推理策略。大量實驗表明，該方案在保持計算效率的同時，可實現視覺震撼且無縫銜接的單鏡頭效果，賦能用户將碎片化影像素材轉化為生動連貫的電影級體驗。

論文地址：https://arxiv.org/abs/2512.21252

0 位用戶收藏了這個故事！