Soul App 開源播客語音合成模型 SoulX-Podcast - News Detail

近日,Soul App AI團隊(Soul AI Lab)正式開源播客語音合成模型SoulX-Podcast。該模型是一款專為多人、多輪對話場景打造的語音生成模型,支持中、英、川、粵等多語種/方言與副語言風格,能穩定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。

除了播客場景以外,SoulX-Podcast在通用語音合成或克隆場景下也表現出色,帶來更真實、更生動的語音體驗。

SoulX-Podcast表現

 

SoulX-Podcast亮點:流暢自然多輪對話、多方言、超長播客生成。

  • 零樣本克隆的多輪對話能力

在零樣本克隆播客生成場景中,SoulX-Podcast 展現出卓越的語音生成能力。它不僅能高度還原參考語音的音色與風格,更能根據對話語境靈活調節韻律與節奏,讓每一段對話都自然流暢、富有節奏感。

無論是多輪長時對話,還是情感層次豐富的交流,SoulX-Podcast 都能保持聲音的連貫與表達的真實。此外,SoulX-Podcast 還支持笑聲、清嗓等多種副語言元素的可控生成,讓合成語音更具臨場感與表現力。

  • 多語種和跨方言的克隆能力

除中英文外,SoulX-Podcast同樣支持四川話、河南話、粵語等多種主流方言。更值得關注的是,SoulX-Podcast實現了跨方言音色克隆——即便僅提供普通話的參考語音,模型也能靈活生成帶有四川話、河南話、粵語等方言特徵的自然語音。

  • 超長播客生成

SoulX-Podcast可以支持超長播客的生成,並維持穩定的音色與風格。

 SoulX-Podcast模型架構如下:

SoulX-Podcast開源地址

  • Demo Page: https://soul-ailab.github.io/soulx-podcast

  • Technical Report: https://arxiv.org/pdf/2510.23541

  • Source Code: https://github.com/Soul-AILab/SoulX-Podcast

  • HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast