博客 / 詳情

返回

開源 | InfiniteTalk:無限長虛擬人視頻生成的新範式

為解決虛擬人長視頻生成的質量退化問題,基礎研發平台/計算和智能平台部/視覺智能團隊推出 InfiniteTalk 技術,實現無限時長視頻生成。該技術口型精準且動作流暢,支持“語音驅動圖像”和“語音驅動視頻”多種模式,已在 GitHub 開源並獲 1.6K Stars, Hugging Face 月下載量 64.8K,受到了很多好評,能夠應用到電商直播、教育、影視等領域。

項目開源信息

  • 項目主頁:https://meigen-ai.github.io/InfiniteTalk/
  • 開源代碼:https://github.com/MeiGen-AI/InfiniteTalk
  • 技術報告:https://arxiv.org/abs/2508.14033

應用場景

  • 營銷: 電商營銷視頻、商家數字人直播、虛擬人導購
  • 培訓:虛擬人講師、虛擬人陪練、在線教育
  • 娛樂:短視頻創作、虛擬偶像、遊戲

01 引言——video dubbing 的一個長期痛點

傳統 video dubbing 技術長期受限於其固有的“口型僵局”,即僅能編輯嘴部區域,導致配音所傳遞的情感與人物的面部、肢體表達嚴重脱節,削弱了觀眾的沉浸感。現有新興的音頻驅動視頻生成模型,在應對長視頻序列時也暴露出身份漂移和片段過渡生硬等問題。為解決這些痛點,我們引入並提出了一種全新的技術範式——“稀疏幀 video dubbing”(sparse-frame video dubbing)。

這一新範式從根本上重新定義了 video dubbing,將其從簡單的“嘴部區域修復”轉變為“以稀疏關鍵幀為引導的全身視頻生成”。基於此,我們推出了核心技術模型 InfiniteTalk。該模型不僅能夠實現口型與配音的精準同步,更實現了面部表情、頭部轉動和肢體語言與音頻所表達情感的自然對齊。InfiniteTalk 採用流式生成架構和獨特的軟條件控制策略,能夠消除長視頻生成中的累積誤差和突兀過渡,為流媒體內容本地化和全球傳播帶來了巨大的提升。

1.1 傳統 video dubbing 技術的“口型僵局”

video dubbing 是內容全球化傳播的關鍵環節,它通過將源視頻的音頻替換為新語言的配音,使內容能夠觸達更廣闊的受眾。然而,長期以來,這項技術一直面臨一個核心的“僵局”——其編輯範圍的侷限性。傳統的 video dubbing 技術,例如 MuseTalk 和 LatentSync,通常專注於對嘴部區域進行“修復式”編輯,以實現口型與新音頻的同步。這種方法的主要侷限在於,它幾乎不觸及人物的面部表情、頭部轉動和肢體動作。

這種“局部編輯”的策略導致了一個嚴重的矛盾:當配音表達出強烈的情感(例如激動、憤怒或喜悦)時,視頻中人物的身體姿態卻保持着僵硬或靜止狀態。例如,一段充滿激情的對話,人物卻只是面部肌肉輕微抽動,身體保持紋絲不動。這種視聽信息的不一致性會嚴重破壞觀眾的沉浸感,使生成的視頻顯得不自然,缺乏説服力。這種矛盾感的存在,從根本上制約了配音視頻的質量,併成為內容創作者亟待解決的難題。如下圖 1 所示:

1.2 現有 AI 生成方案的缺陷:累積誤差與過渡生硬

隨着人工智能技術的發展,一些音頻驅動的視頻生成模型應運而生,試圖解決這一問題。然而,直接將這些模型應用於長 video dubbing 任務,同樣暴露出新的、且同樣關鍵的挑戰。

首先是基於圖像轉視頻(Image-to-Video, I2V)的方法。這類模型通常以視頻的首幀圖像作為初始參考,然後根據音頻生成後續的視頻序列。雖然這種方法在理論上提供了更大的動作自由度,但它存在嚴重的“累積誤差”問題,如圖 2(左)。由於模型缺乏持續的原始關鍵幀作為錨定,在生成較長的視頻序列時,人物的身份特徵(如面部細節、髮型等)會逐漸偏離源視頻,甚至背景的色調也可能發生不可控的偏移,導致視頻質量隨時間推移而下降。

其次是基於首末幀轉視頻(First-Last-frame-to-Video, FL2V)的方法。該方法試圖通過同時使用視頻片段的起始幀和終止幀作為參考來解決累積誤差。然而,這種策略帶來了另一個問題:過渡生硬, 如圖 2(右)。FL2V 模型生成過程缺乏從前一片段向後一片段傳遞的“動量信息”,不同視頻片段之間的動作銜接會顯得突兀和不自然,打破了視頻流的連續性。與此同時,其過於嚴格地遵循固定的參考幀,強制生成的視頻在片段(chunk)的邊界上精確複製參考幀的姿態,即使這種姿態與新音頻的情感或節奏相悖。

這兩種主流 AI 方案的侷限性揭示了一個核心矛盾:即“局部編輯的僵硬”與“全局生成的失控”。傳統方法因編輯範圍狹窄而僵硬,而新興的 AI 生成模型則在長視頻的連貫性上遭遇了挑戰。這證明了長 video dubbing 任務需要一個全新的、能同時兼顧全局連貫性與局部動態表達的解決方案。

02 創新性範式:稀疏幀 video dubbing

2.1 核心理念:從“修復”到“生成”的範式轉變

為了從根本上解決上述挑戰,我們引入了一個全新的技術範式——“稀疏幀 video dubbing”。這一範式徹底改變了 video dubbing 的技術哲學:它不再將任務定義為對嘴部區域的“修復”(inpainting),而是將其重構為一場“以稀疏關鍵幀為引導的全身視頻生成”。

其核心理念在於,不是逐幀地、僵硬地複製源視頻,而是策略性地僅保留和利用源視頻中的少數關鍵幀(sparse keyframes)作為核心參考。這些關鍵幀如同“視覺錨點”,在生成過程中發揮着至關重要的作用。

2.2 雙重目標:身份錨定與全身自由表達

“稀疏幀 video dubbing”範式的技術哲學旨在同時實現兩個看似矛盾但又相互補充的目標:

  • 身份與風格錨定: 選定的少數關鍵幀用於鎖定視頻中人物的身份特徵、面部情緒基調、標誌性手勢以及攝像機鏡頭的運動軌跡。這確保了無論生成的視頻有多長,人物的身份和視頻的整體風格都能保持高度一致性和真實感,從而從根本上解決了 I2V 模型中的“累積誤差”問題。
  • 全身自由表達: 這一範式的創新之處在於,在錨定關鍵信息的同時,它賦予了模型充分的“自由”去生成與新音頻有機同步的全身動作。這意味着,模型不再被侷限於嘴部區域,而是能夠根據音頻所表達的節奏、情緒和韻律,動態地生成相應的面部表情、自然的頭部轉動和流暢的肢體姿勢。例如,當配音音頻中的情感從平靜轉為激動時,模型能夠生成相應的手部動作和更豐富的面部表情,從而使配音視頻在更高維度上實現視聽的和諧統一。

這種從“局部修復”到“全身生成”的範式轉變,是 InfiniteTalk 模型能夠實現後續所有技術突破的起點。它不僅解決了現有技術的根本性痛點,也為 video dubbing 技術未來的發展指明瞭新的方向。

03 InfiniteTalk 技術深度解讀:三大核心技術

InfiniteTalk 是在“稀疏幀 video dubbing”範式下應運而生的核心模型。它通過獨特的技術架構和策略,將這一前沿理念化為現實,並取得了顯著的成果。

3.1 核心技術一:流式生成架構——長視頻無縫銜接的秘密

為了應對無限長度的視頻序列生成任務,InfiniteTalk 採用了流式(streaming)生成架構,整體網絡框架如下圖 4 所示。其工作原理是將一個超長視頻分解為多個小的、可管理的視頻片段(chunks),然後逐一進行生成。然而,與簡單的分段生成不同,InfiniteTalk 的核心在於其精巧設計的“上下文幀”(context frames)機制。

當模型生成一個新片段時,它不僅僅依賴於源視頻的參考幀,還會利用上一段已生成視頻的末尾幀作為下一段生成的“動量信息”。這些上下文幀為新片段的生成提供了必要的“時間上下文”,使其能夠承接前一片段的運動趨勢和動態,確保動作的連續性和流暢性。這一機制如同接力賽中的接力棒,將前一棒的衝刺動量無縫傳遞給下一棒,從而徹底解決了傳統 FL2V 模型中因缺乏動量信息而導致的片段間突兀過渡問題。通過流式架構和上下文幀機制的結合,InfiniteTalk 成功地將“片段生成”任務提升為“連續流生成”,這是其實現“無限長度”生成能力的技術基石。

3.2 核心技術二:軟條件控制——讓 AI 學會“自由”與“跟隨”

在“稀疏幀 video dubbing”範式下,一個關鍵的挑戰是如何在“自由表達”與“跟隨參考”之間找到微妙的平衡。過於嚴格地複製參考幀(如 M1 策略)會導致生成的動作僵硬,而如果控制過於鬆散(如 M2 策略),則又會面臨身份和背景失真等問題。

InfiniteTalk 的核心策略是採用一種“軟條件”(soft conditioning)控制機制 。該機制的核心發現是,模型的控制強度並非固定不變,而是由“視頻上下文和參考圖像的相似度”所決定 。基於這一發現,我們設計了一種獨特的採樣策略,通過“細粒度的參考幀定位”(fine-grained reference frame positioning)來動態調整控制強度,從而在動作自然度與參考幀的保真度之間取得平衡。

如表 3 所示,M0 策略因隨機採樣而控制強度過高,導致模型不恰當地複製參考動作,削弱了同步性。M1 策略雖然在視覺質量上表現尚可,但在同步性上表現較差,因為它過於嚴格地複製了邊界幀。M2 策略因參考幀與上下文幀的時間距離過遠,導致模型對身份和背景的控制力不足,最終在視覺質量(FID、FVD)上表現最差。

最終被採納的 M3 策略,通過在訓練中從鄰近分塊(adjacent chunks)中採樣參考幀,找到了一個“最優平衡點”(optimal equilibrium)。這種策略既能確保模型在視覺上遵循源視頻的風格,又能賦予模型根據音頻動態生成全身動作的自由。這一核心創新證明了,模型能否成功生成自然動作,其關鍵在於將“控制強度”視為一個可調控的變量,而非固定不變的開關,從而實現了“軟條件”這一創新式的突破。

3.3 核心技術三:全方位同步能力——從口型到全身動作的自然對齊

InfiniteTalk 成功地實現了對嘴部、面部表情、頭部轉動乃至全身動作的音頻同步生成,這正是“稀疏幀配音”範式帶來的終極能力。

此外,該模型還能通過集成 SDEditUni3C 等插件,實現對源視頻中微妙的鏡頭運動(Camera Movement)的精確保留。這一點至關重要,因為它確保了生成的視頻不僅人物動作自然,連畫面的構圖和運鏡都與源視頻保持一致,進一步提升了視頻的真實感和連貫性。

傳統模型僅編輯嘴部,無法響應音頻中的情感和節奏變化,因此觀眾會感到不自然。InfiniteTalk 的全方位同步能力則能夠根據音頻的韻律(Prosody)、情感(Emotional tone)和節奏(Rhythm)生成相應的面部和肢體動作。這種在更高維度上的視聽統一與和諧,是其超越傳統方法的關鍵。

04 實驗數據與視覺實證

為了全面驗證 InfiniteTalk 的性能,我們將其與傳統 video dubbing 方法和新興的音頻驅動圖像轉視頻模型進行了對比。

4.1 定量指標對比

與傳統 video dubbing 模型的對比:

與圖像轉視頻模型的對比:

四種不同的參考幀消融實驗對比:

4.2 人體評估結果

4.3 定性對比

與不同的 video dubbing 方法對比:

4.4 不同相機控制方法的對比

05 結語與展望:賦能全球媒體,定義內容創作新未來

InfiniteTalk 的誕生標誌着 video dubbing 技術進入了一個全新的紀元。它通過提出並實踐“稀疏幀 video dubbing”這一創新範式,成功解決了困擾行業已久的“僵硬”與“斷裂”兩大痛點。其核心技術——流式生成架構、軟條件控制以及全方位同步能力,共同為高質量、長序列的視頻內容生成提供了前所未有的解決方案。

這項技術所帶來的價值遠不止於此。它將在多個領域展現出巨大的應用潛力。在流媒體平台的內容本地化方面,InfiniteTalk 能夠生成高度自然、情感同步的配音視頻,極大地提升觀眾的觀看體驗,從而加速內容的全球傳播。不僅電商營銷視頻、本地生活數字人直播、虛擬人導購、虛擬人講師和陪練等領域,這項技術可以提供強大的生產工具; 而且在短視頻創作、虛擬偶像、在線教育、沉浸式體驗等領域,該技術以更低的成本、更高的效率生成富有表現力的動態內容,徹底打破現有製作流程的瓶頸。

InfiniteTalk 不僅僅是一項技術突破,更是對沉浸式、高質量視頻內容生成的一次重新定義。它為全球媒體內容的本地化和傳播開啓了新的可能性,為內容創作者們定義了一個更具想象力和創造力的未來。

| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。

user avatar xiaoweiyu 頭像
1 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.