智譜AI宣佈正式上線並開源 GLM‑TTS 工業級語音合成系統。
據介紹,只需 3 秒語音樣本,GLM‑TTS 即可學習説話人的音色和説話習慣。在通用朗讀、情感配音、教育評測、電子書、有聲客服等場景中,實現自然流暢、貼近真人的語音。
GLM‑TTS 在架構上採用兩階段生成,並在訓練中引入基於 GRPO 的強化學習方案,在公開評測的「字錯誤率」和「情感表達」上取得開源 SOTA 表現。
GLM‑TTS 基於 GRPO 框架,引入多維度獎勵和穩定訓練機制,在可控前提下提升模型的表達力和魯棒性。
強化學習採用了訓練數據與合成數據相結合的數據構造模式,實現了幾乎零成本的數據生成。通過與訓練算法的優化協同,有效避免了獎勵欺騙(reward hacking),從而保證了模型性能的真實性和泛化能力,在未見過的測試集上同樣取得了理想效果。
值得一提的是,GLM-TTS 僅使用 10w 小時訓練數據,遠低於行業主流商用模型。同時,GLM-TTS 也兼顧了訓練成本和效果,預訓練僅需要單機 4 天即可得到開源 SOTA“發音準確度”與超高“音色還原度”,精品音色 LORA 和強化學習也僅需要單機 1 天即可完成訓練,遠低於行業平均水平。
另外,GLM‑TTS 還以更低的價格獲得了行業領先的 MOS 分數(平均主觀意見分)。
GLM‑TTS 相關資源(模型權重、推理腳本、示例項目等):
GitHub:https://github.com/zai-org/GLM-TTS
Hugging Face:https://huggingface.co/zai-org/GLM-TTS