巨人網絡發佈三大 Muli-Modal 模型

巨人網絡 AI Lab 聯合清華大學與西北工業大學推出三項研究成果：YingVideo-MV、YingMusic-SVC 與 YingMusic-Singer，並陸續開源。分別面向音樂驅動的視頻生成、歌聲轉換與歌聲合成任務，完善了真實業務場景中多項關鍵能力鏈路，為 “視頻 × 音樂” 的多模態生成方向帶來了系統性的技術進展。

其中，YingVideo-MV 模型實現僅憑“一段音樂加一張人物圖像”即可生成音樂視頻片段，它能夠通過對音樂的節奏、情緒和內容結構進行多模態分析，確保鏡頭運動與音樂高度同步，並具備推、拉、搖、移等鏡頭語言，同時利用長時序一致性機制有效緩解長視頻中常見的人物“畸變”和“跳幀”現象。

在音頻生成方面，YingMusic-SVC 主打“真實歌曲可用”的零樣本歌聲轉換能力，通過針對真實音樂場景的優化，有效抑制了伴奏、和聲和混響的干擾，顯著降低了破音與高音失真風險，為高質量的音樂再創作提供了穩定的技術支撐。

而 YingMusic-Singer 歌聲合成模型則支持在給定旋律下輸入任意歌詞，即可生成發音清晰、旋律穩定的自然歌聲，其主要特點在於能夠靈活適應不同長度的歌詞，並支持零樣本音色克隆，大幅提升了 AI 演唱在創作中的靈活度與實用性，有效降低了音樂創作的門檻。

發佈評論

Product

Company

Support

Company

巨人網絡發佈三大 Muli-Modal 模型

發佈 評論

發佈評論