巨人網絡發佈三大 Muli-Modal 模型

新聞
HongKong
14
04:49 PM · Nov 27 ,2025

巨人網絡 AI Lab 聯合清華大學與西北工業大學推出三項研究成果:YingVideo-MV、YingMusic-SVC 與 YingMusic-Singer並陸續開源。分別面向音樂驅動的視頻生成、歌聲轉換與歌聲合成任務,完善了真實業務場景中多項關鍵能力鏈路,為 “視頻 × 音樂” 的多模態生成方向帶來了系統性的技術進展。

其中,YingVideo-MV 模型實現僅憑“一段音樂加一張人物圖像”即可生成音樂視頻片段,它能夠通過對音樂的節奏、情緒和內容結構進行多模態分析,確保鏡頭運動與音樂高度同步,並具備推、拉、搖、移等鏡頭語言,同時利用長時序一致性機制有效緩解長視頻中常見的人物“畸變”和“跳幀”現象。

在音頻生成方面,YingMusic-SVC 主打“真實歌曲可用”的零樣本歌聲轉換能力,通過針對真實音樂場景的優化,有效抑制了伴奏、和聲和混響的干擾,顯著降低了破音與高音失真風險,為高質量的音樂再創作提供了穩定的技術支撐。

而 YingMusic-Singer 歌聲合成模型則支持在給定旋律下輸入任意歌詞,即可生成發音清晰、旋律穩定的自然歌聲,其主要特點在於能夠靈活適應不同長度的歌詞,並支持零樣本音色克隆,大幅提升了 AI 演唱在創作中的靈活度與實用性,有效降低了音樂創作的門檻。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.