博客 / 詳情

返回

開源 | MeiGen-MultiTalk:基於單張照片實現多人互動演繹

近日,美團推出了音頻驅動的多人對話視頻生成框架MultiTalk,並在GitHub上開源,首創L-RoPE綁定技術,通過標籤旋轉位置編碼精準解決多音頻流與人物錯位難題。該框架創新性地採用局部參數訓練+多任務學習策略,在保留複雜動作指令跟隨能力的同時,實現自適應動態人物定位。只需輸入多人音頻流、參考圖像和文本提示,即可生成口型精準同步、肢體自然的交互視頻,可支持影視製作、直播電商等場景的工具升級。

如果給你一張圖片,再給你一段語音,怎麼能讓它們完美融合在一起,讓圖片中人物自然説話和做動作,甚至多人之間還能互動起來呢?近日,美團視覺智能團隊在GitHub上開源了一款產品MeiGen-MultiTalk,它就非常巧妙地解決了這個問題。先上視頻,看一下它實力如何:

1.輸入圖像+對話語音

2.使用MultiTalk生成視頻

點擊查看視頻

注:圖像和音頻均由AI生成。

還有下面這部《Smile》短片中所有鏡頭,也都是由MeiGen-MultiTalk合成的,是不是很驚豔?

點擊查看視頻

注:每個鏡頭首幀圖像和音頻來源《Smile》- Morgan Wallen

不僅僅是這種風格,還有很多其他很多類型的融合,讓小貓説話,給動畫片配音,甚至還讓雙人對唱飈高音,它也表現的相當不錯。感興趣的同學,可移步到項目主頁進行查看。或者查看美團技術團隊微信公眾號的推文:開源 | MeiGen-MultiTalk:基於單張照片實現多人互動演繹。展示完畢,接下來就是最重要的部分,上鍊接!

  • 項目主頁 :https://meigen-ai.github.io/multi-talk/
  • 開源代碼 :https://github.com/MeiGen-AI/MultiTalk
  • 技術報告 :https://arxiv.org/abs/2505.22647
一、引言:超越"會説話的頭"------AI人像視頻的下一個前沿

當前,人工智能在視覺內容生成領域取得了令人矚目的進展,尤其是在音頻驅動的人像視頻方面。無論是"會説話的頭"還是"會説話的身體"技術,都已能夠從音頻信號生成與面部動作高度同步、視覺質量令人滿意的視頻。這些技術在模擬單人講話方面表現出色,例如在虛擬主播或數字替身等應用中展現出逼真的效果。

然而,現有方法在處理更復雜的場景時,其侷限性也日益凸顯,面對多人對話視頻生成時面臨三大挑戰:

  1. 多音頻流輸入適配:如何區分並綁定不同人物的音頻信號?
  2. 動態人物定位:當人物在畫面中移動時,如何精準定位其運動區域?
  3. 指令遵循能力:如何讓生成的視頻嚴格遵循文本描述的複雜動作(如大幅肢體動作)?

這些挑戰促使研究人員思考,AI人像視頻的下一個前沿究竟在哪裏。從最初僅關注面部表情的"會説話的頭",到能夠模擬全身動作的"會説話的身體",再到如今MultiTalk所提出的"多人物對話視頻生成",這清晰地揭示了AI人像視頻領域從關注局部細節到全身動作,再到模擬複雜社會互動的演進趨勢。這種演進不僅僅是技術能力的簡單提升,更體現了對真實世界複雜性模擬需求的增長,以及AI在內容創作中扮演更高級角色的潛力。用户對AI生成內容的"真實感"和"複雜性"要求越來越高,簡單的"動起來"已不足夠,現在需要AI能夠"自然地互動"並"理解和執行復雜指令"。

二、MultiTalk的框架圖:如何實現AI對話視頻生成

MultiTalk實現音頻驅動的多人物對話視頻生成的技術框架,如下圖2所示:

2.1 基礎模型結構:DiT與3D VAE

MultiTalk以DiT(Diffusion-in-Transformer)為基礎的視頻擴散模型作為其核心骨架。DiT模型因其在圖像和視頻生成方面的卓越性能而備受關注,它用Transformer結構替代了傳統的U-Net,能夠更好地捕捉長距離依賴關係。

為了高效處理視頻數據,MultiTalk集成了3D變分自編碼器(VAE)。3D VAE能夠對視頻數據在空間和時間維度上進行壓縮,將高維原始視頻數據編碼成更緊湊的潛在表示。這種壓縮大大降低了後續擴散模型的計算負擔,同時保留了關鍵的視覺信息。

首先,使用文本編碼器,將用户輸入的文本提示(例如"一個男人和女人正在舞台上唱歌")轉化為文本條件嵌入,指導視頻內容的生成。其次,通過CLIP圖像編碼器提取的全局上下文信息也被注入到DiT模型中。這些圖像上下文與文本條件通過解耦的交叉注意力機制協同作用,為生成視頻提供視覺和語義指導,確保生成內容與參考圖像和文本提示保持一致。

2.2 讓AI"説話":單人音頻集成

基礎的圖像到視頻(I2V)擴散模型通常不原生支持音頻輸入。為了讓模型能夠"説話",MultiTalk在每個DiT塊的文本交叉注意力層之後,添加了新的層,這些層包含層歸一化和音頻交叉注意力機制,專門用於處理和整合音頻條件。

在音頻嵌入的提取與上下文整合方面,MultiTalk採用了Wav2Vec,這是一種廣泛使用的音頻特徵提取器,能夠將音頻波形轉換為高維的音頻嵌入。在音頻驅動的人體視頻中,當前時刻的動作不僅受當前音頻幀影響,也受前後音頻幀的影響。因此,MultiTalk遵循現有方法,將與當前幀相鄰的音頻嵌入進行拼接(通過上下文長度k參數控制),形成更具時間上下文信息的音頻嵌入,以更好地捕捉語音的動態變化。

一個重要的挑戰是,由於3D VAE對視頻數據進行了時間壓縮,視頻潛在空間的幀長度通常比原始音頻嵌入的幀長度短,這使得兩者之間無法直接進行幀對幀的交叉注意力計算。為了解決這種時序長度不匹配的問題,MultiTalk使用了一個音頻適配器。該適配器通過一系列操作對音頻嵌入進行壓縮和對齊:首先將輸入音頻嵌入分割為初始幀和後續幀;然後對後續幀進行下采樣;接着分別通過多個MLP層編碼初始幀和下采樣後的後續幀;將編碼後的特徵拼接起來;最後,再次通過MLP層對拼接後的特徵進行編碼,從而獲得與視頻潛在空間幀長度匹配的壓縮音頻條件。音頻適配器解決了視頻和音頻數據固有的時間粒度不匹配問題,確保了信息流的順暢,使得不同模態的數據能夠高效地在同一框架內進行交互。

2.3 核心挑戰:當多重聲音讓AI"困惑"

與單人視頻相比,多人物對話視頻生成帶來了多重複雜性,這些是現有方法無法解決的。首先,對話場景中,音頻信號來自多個人物,模型需要能夠同時、獨立地處理這些不同的音頻流,這是"多流音頻輸入處理"的挑戰。其次,也是最核心的挑戰之一,是"音頻與人物的精確綁定"。必須確保視頻中的每個人物只由其對應的音頻流驅動,以防止唇形同步錯誤地出現在所有人物身上,導致不自然的"齊聲説話"現象,這在真實對話中是極不自然的。最後,生成視頻中的人物是動態的,他們的位置和姿態會隨着對話和動作而變化。這要求模型具備一種"自適應方法",能夠精確追蹤每個人物在視頻幀中的運動區域,以便將音頻準確地映射到正確的視覺區域。

在探索多流音頻注入方案時,MultiTalk嘗試了多種直覺性的方法,如上圖3所示。但多數都未能有效解決音頻與人物的綁定問題,這凸顯了問題本身的複雜性,並非簡單的拼接或分割就能解決。最初的嘗試包括:

  • 直接拼接多流音頻嵌入: 將多流音頻的嵌入直接拼接起來,然後與視頻潛在空間進行交叉注意力計算。然而,這種方法未能將拼接後的多流音頻與視頻中對應的特定人物區域綁定,導致混亂的同步。
  • 分別計算後相加: 分別計算每個音頻流與視頻潛在空間的交叉注意力結果,然後將這些結果相加。然而,這種方法同樣未能解決綁定問題,模型無法區分哪個音頻應該驅動哪個人物。
  • 分割視頻潛在空間(左右區域): 考慮到視頻中人物通常位於左右兩側,MultiTalk嘗試將視頻潛在空間簡單地分割成左右兩部分,並讓每個部分與對應的音頻流計算注意力。雖然這種方法在一定程度上成功綁定了多流音頻到不同人物,但其泛化能力極其有限。它僅適用於人物動作範圍很小的視頻;一旦人物出現大範圍移動或交叉,這種簡單的空間分割就會導致音頻綁定失敗。

這些傳統方法失敗的根本原因在於它們缺乏自適應的對動態主體進行定位的能力。直接拼接、簡單相加或基於固定空間位置的分割,無法讓模型理解哪個音頻流應該對應視頻中哪個動態變化的人物。缺乏這種深層的"人物感知"和"語義綁定"機制,導致了"錯誤綁定"------所有人都同步説話,這在對話場景中是極不自然的,嚴重影響了生成視頻的真實感和可用性。

2.4 讓AI"交談":L-ROPE實現無縫多人物綁定

為了解決這個問題,MultiTalk提出了L-ROPE。在應用L-ROPE進行音頻綁定之前,MultiTalk首先需要解決一個基礎問題:如何在視頻中動態地識別並追蹤每個人物的位置。給定包含多個人物的參考圖像,模型首先識別出每個人物的掩碼區域以及背景掩碼。在DiT模型中,視頻的第一幀通常作為參考圖像。MultiTalk利用"參考圖像到視頻的自注意力圖"。如圖4a),通過計算視頻潛在空間中每個Token與參考圖像中每個人物掩碼的平均相似度,模型能夠得到一個相似度矩陣。利用這個相似度矩陣,模型可以自適應地確定視頻中每個潛在Token屬於哪個人物或背景,從而實現了對每個人物的動態定位和追蹤。

Label Rotary Position Embedding (L-ROPE)是MultiTalk的核心創新,它基於ROPE(Rotary Position Embedding)的思想。ROPE是一種在大型語言模型(LLMs)和視頻擴散模型中廣泛使用的相對位置編碼技術,以其在捕捉Token間關係和處理時空信息方面的卓越能力而聞名。L-ROPE的創新之處在於,它將"類別標籤"融入到位置編碼中,從而在DiT塊的音頻交叉注意力層中,實現了多流音頻與多個人物的精準綁定。

在標籤分配策略上,視頻潛在空間包多個類別,比如多個人物和背景的區域。MultiTalk為每個人物分配了一個特定的數值範圍作為標籤(例如,第一個人物的視覺標籤範圍是{0-4},第二個人物是{20-24})。視頻潛在空間中每個Token的最終標籤,是根據其與對應人物掩碼的相似度,通過歸一化函數在這個範圍內計算得出的。背景區域則被賦予一個靜態標籤,以確保它不與任何音頻流關聯,避免背景元素被音頻驅動。對於多流音頻嵌入,MultiTalk首先將它們拼接起來,然後為每個音頻流分配一個靜態的、唯一的標籤。為了與視頻中的人物綁定,這些音頻標籤被精心選擇,與對應人物的視覺標籤範圍"接近"或"匹配"(例如,第一個音頻流標籤為2,第二個音頻流標籤為22)。

L-ROPE的特點在於它將"類別信息"(哪個像素屬於哪個人物類或背景類)巧妙地融入了"位置編碼"中。傳統的ROPE處理的是純粹的時空位置信息,而L-ROPE則更進一步,將"類別"信息編碼進去。它使得模型能夠區分場景中的不同個體。在音頻交叉注意力機制中,Q(來自視頻潛在空間)和K(來自多流音頻嵌入)都經過L-ROPE處理。通過這種帶有語義標籤的旋轉,當視頻潛在空間中某個區域(例如,對應人物1的區域)的標籤與音頻1的標籤"匹配"時,它們之間的注意力權重就會被有效激活,從而強制模型將音頻1的驅動作用集中到人物1身上,解決了不正確的綁定問題,如圖4c)。這種策略能夠有效激活音頻交叉注意力圖中的特定區域,從而確保音頻與對應人物的唇形和動作精確同步。

為了驗證L-ROPE的有效性,論文進行了一項消融研究,重點關注標籤範圍的選擇。實驗結果(如下表3所示)表明,即使為不同人物選擇不同的標籤範圍,所產生的性能指標接近。這説明L-ROPE對具體的標籤範圍變化不敏感。

2.5 訓練策略

MultiTalk框架採用了多項訓練策略,這些策略共同確保了模型在多人物場景下的高性能、精確的音頻同步以及指令遵循能力。

1. 兩階段訓練:循序漸進的技能提升

MultiTalk的訓練過程被劃分為兩個階段,旨在逐步增強模型的音頻處理和唇形同步能力。第一階段的主要目標是開發模型對單人視頻的強大能力,此階段模型使用單人説話視頻數據集進行訓練。在模型掌握了單人視頻能力之後,進入第二階段。第二階段使用專門收集的包含雙流音頻的訓練數據,以促進模型學習多人物視頻和交互。

2. 部分參數訓練:精準調優,避免退化

這是MultiTalk訓練中的一個關鍵策略。在整個訓練過程中,研究者僅更新音頻交叉注意力層和音頻適配器中的網絡參數,而凍結了所有其他基礎模型的網絡參數。論文發現表明,在計算資源和數據量有限的情況下,如果進行全參數訓練,會導致模型指令遵循能力的顯著下降(特別是對於複雜的動作和人物交互),甚至可能引起生成視頻中手部和物體變形等視覺偽影。相反,通過僅訓練與音頻輸入直接相關的特定層,MultiTalk能夠很好地保留基礎模型原有的強大指令遵循能力,並避免了上述視覺退化問題。

3. 多任務訓練:豐富場景理解,強化指令遵循

MultiTalk採用了多任務混合訓練範式,將模型訓練任務分為音頻+圖像到視頻(AI2V)訓練和圖像到視頻(I2V)訓練。儘管任務不同,但它們共享相同的網絡參數。在AI2V任務中,模型同時使用參考圖像和音頻作為條件輸入,專注於學習音頻驅動的唇形同步和動作生成。在I2V任務中,音頻條件被移除(通過將音頻嵌入置零)。I2V任務使用的訓練數據是獨特的,主要包含大量多事件視頻。這些視頻涵蓋了人物、物體和場景之間複雜的交互,例如人物拿起杯子、與環境互動等。這種多事件數據集對於確保模型能夠準確理解和執行文本提示中描述的複雜動作和交互至關重要。論文指出,如果僅使用説話的頭和身體數據進行AI2V訓練,網絡的指令遵循能力會顯著削弱。然而,通過將I2V訓練納入多任務範式,模型能夠有效地保留其強大的指令遵循能力,從而生成更符合用户意圖的視頻,如下圖5所示。這種策略體現了泛化與魯棒性,即通過多任務訓練,在保持特定任務能力的同時,增強模型的通用理解和指令遵循能力。

2.6 長視頻生成

儘管MultiTalk模型能夠生成高質量的短視頻(例如3-5秒),但這對於實際應用場景(如製作電影片段、直播內容)來説遠遠不夠,因為這些場景通常需要持續更長的視頻。為了突破單次生成長度的限制,MultiTalk引入了一種基於自迴歸(Autoregressive)的方法來生成長視頻。將之前生成視頻的末尾部分作為條件,來生成新的視頻片段,從而實現時間上的連續性和擴展。

在具體的實現機制上,傳統的圖像到視頻(I2V)模型通常只使用視頻的第一幀作為生成後續幀的條件。MultiTalk在此基礎上進行了關鍵改進。在生成新的視頻片段時,它不再僅僅依賴第一幀,而是將先前已生成視頻的最後5幀作為額外的條件輸入到當前的推理步驟中。這使得模型能夠"記住"並延續之前的動作和場景狀態。這些作為條件的5幀視頻,首先會通過3D VAE進行壓縮,將其轉化為更緊湊的2幀潛在噪聲表示。隨後,為了匹配DiT模型的輸入格式,新的視頻幀(除了從歷史信息得來的2幀潛在噪聲)會用零填充。這些填充的幀、來自歷史信息的潛在噪聲以及一個視頻掩碼被拼接在一起,形成完整的輸入。最終,這個包含歷史上下文信息的輸入被送入DiT模型進行推理,生成新的視頻片段。下面視頻展示了生成結果的流暢性。

  1. 輸入圖像+對話語音

  1. 使用MultiTalk生成視頻

點擊查看視頻

注:圖像和音頻源於《破產姐妹》。

三、MultiTalk實戰:性能表現

MultiTalk的性能通過廣泛的實驗進行了驗證,包括與現有最先進方法的定量和定性比較,充分展示了其在多人物對話視頻生成方面的能力。

在數據集與評估指標方面,MultiTalk的訓練數據集在第一階段使用了約2K小時的單人説話視頻,用於學習基礎的音頻驅動視頻能力;第二階段則使用了100小時的雙人對話視頻,用於專門訓練多人物交互和綁定。MultiTalk在三類不同的測試數據集上進行了評估:説話的頭數據集(HDTF 和 CelebV-HQ )、説話的身體數據集(EMTDT )以及雙人説話身體數據集(MTHM)。評估採用了行業內通用的多維度指標:FID (Frechet Inception Distance) 和 FVD (Fréchet Video Distance) 用於評估生成數據質量;E-FID (Expression-FID) 用於評估生成視頻中面部表情的表現力;Sync-C 和 Sync-D 用於精確測量生成視頻中唇部動作與音頻的同步程度。

在定量評估中,MultiTalk在説話的頭和説話的身體生成任務上,與AniPortrait、VExpress、EchoMimic、Hallo3、Sonic、Fantasy Talking等多個最先進的方法進行了對比。結果顯示,MultiTalk在大多數指標上超越了這些方法,尤其在唇形同步(Sync-C, Sync-D)和視頻質量(FID, FVD)方面表現出卓越性能。

此外,我們還專門探討了多流音頻訓練是否會導致單人視頻性能下降的問題(具體可以參考論文)。實驗結果(表1和表2中"MultiTalk-single"與"MultiTalk-multiple"的對比)顯示,MultiTalk的多人視頻模型在單人數據集上表現與單人視頻模型相當。這表明,MultiTalk在引入多人物處理能力時,並未犧牲原有的單人視頻性能,實現了能力的無損疊加。

在定性評估中,MultiTalk取得了不錯的效果,如下圖6所示。其顯著優勢之一是強大的指令遵循能力。當提供複雜的文本提示(例如"一個男人合上筆記本電腦並放在桌上"、"一個女人戴着耳機坐在桌旁,然後她拿起耳機")時,MultiTalk能夠成功生成精確響應這些指令的視頻,而其他同類方法則難以做到,往往出現動作不符或物體變形。MultiTalk生成的視頻中,視覺偽影(如手部或物體扭曲)顯著減少,整體視覺質量更高,畫面更自然真實。作為首個專門針對多人物生成任務設計的方法,MultiTalk在處理複雜的交互場景時表現出色。

與簡單的"視頻拼接"方法(即將左右人物視頻分別生成再拼接)相比(如下圖7所示),MultiTalk能夠有效處理人物間的互動,避免了拼接方法中常見的左右片段不一致性問題,使得多人物對話和互動更加流暢自然。論文還通過可視化自注意力圖,直觀地展示了MultiTalk能夠自適應地識別視頻中特定人物的定位,這進一步證明了L-ROPE方法在實現精確音頻綁定方面的有效性。

四、總結與展望

MultiTalk提出一種音頻驅動多人物對話視頻生成方案,其核心突破在於其創新的L-ROPE方法,它通過結合自適應人物定位和帶有類別信息的標籤編碼,有效解決了多流音頻的注入和人物綁定這一難題。此外,其精心設計的部分參數訓練和多任務訓練策略,確保了模型在有限資源下依然能夠保持強大的指令遵循能力和高質量的視覺輸出。

MultiTalk的誕生,預示着其在多角色電影製作、虛擬直播、遊戲開發、教育內容創作等領域具有廣闊的應用前景。我們深信,未來它將極大地降低多角色視頻的製作門檻,使個性化、交互式內容創作變得更加高效和便捷。儘管仍存在真實音頻與合成音頻的性能差距等侷限,但MultiTalk為未來的研究指明瞭方向。我們期待MultiTalk及其後續研究能夠進一步推動AI在模擬和創造複雜人機交互方面的能力,使數字世界中的人物更加栩栩如生。

現在,MultiTalk已經在GitHub上開源,歡迎更多的同學加入我們,一起共建。

五、關於美團視覺智能部

美團視覺智能部圍繞豐富的本地生活電商場景,建設從基礎通用到細分領域的視覺技術能力,包括:視覺生成大模型、多模交互虛擬人,助力營銷創意生產和商家低成本直播;文檔、商品、安全多模態大模型,助力商家開店經營、平台商品治理和違規賬號治理;人臉識別、文字識別、細粒度圖像分析、高性能檢測分割、街景理解,成為公司基礎設施能力。曾開源行業最大規模食品圖像數據集Food2K被全球各地區上百家機構使用,目標檢測框架YOLOV6榮登2023年度世界開源貢獻榜,獲得10+項國際競賽冠軍,上百項發明專利,60+篇頂會頂刊論文。曾與國內多家知名科研機構合作,多次獲得省部級科技進步獎項。

| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明 "內容轉載自美團技術團隊"。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.