Soul App 開源播客語音合成模型 SoulX-Podcast - News Detail

近日，Soul App AI團隊（Soul AI Lab）正式開源播客語音合成模型SoulX-Podcast。該模型是一款專為多人、多輪對話場景打造的語音生成模型，支持中、英、川、粵等多語種/方言與副語言風格，能穩定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。

除了播客場景以外，SoulX-Podcast在通用語音合成或克隆場景下也表現出色，帶來更真實、更生動的語音體驗。

SoulX-Podcast表現

SoulX-Podcast亮點：流暢自然多輪對話、多方言、超長播客生成。

在零樣本克隆播客生成場景中，SoulX-Podcast 展現出卓越的語音生成能力。它不僅能高度還原參考語音的音色與風格，更能根據對話語境靈活調節韻律與節奏，讓每一段對話都自然流暢、富有節奏感。

無論是多輪長時對話，還是情感層次豐富的交流，SoulX-Podcast 都能保持聲音的連貫與表達的真實。此外，SoulX-Podcast 還支持笑聲、清嗓等多種副語言元素的可控生成，讓合成語音更具臨場感與表現力。

除中英文外，SoulX-Podcast同樣支持四川話、河南話、粵語等多種主流方言。更值得關注的是，SoulX-Podcast實現了跨方言音色克隆——即便僅提供普通話的參考語音，模型也能靈活生成帶有四川話、河南話、粵語等方言特徵的自然語音。

SoulX-Podcast可以支持超長播客的生成，並維持穩定的音色與風格。

SoulX-Podcast模型架構如下：

SoulX-Podcast開源地址