智譜上線並開源工業級語音合成系統 GLM‑TTS

智譜AI宣佈正式上線並開源 GLM‑TTS 工業級語音合成系統。

據介紹，只需 3 秒語音樣本，GLM‑TTS 即可學習説話人的音色和説話習慣。在通用朗讀、情感配音、教育評測、電子書、有聲客服等場景中，實現自然流暢、貼近真人的語音。

GLM‑TTS 在架構上採用兩階段生成，並在訓練中引入基於 GRPO 的強化學習方案，在公開評測的「字錯誤率」和「情感表達」上取得開源 SOTA 表現。

GLM‑TTS 基於 GRPO 框架，引入多維度獎勵和穩定訓練機制，在可控前提下提升模型的表達力和魯棒性。

強化學習採用了訓練數據與合成數據相結合的數據構造模式，實現了幾乎零成本的數據生成。通過與訓練算法的優化協同，有效避免了獎勵欺騙（reward hacking），從而保證了模型性能的真實性和泛化能力，在未見過的測試集上同樣取得了理想效果。

值得一提的是，GLM-TTS 僅使用 10w 小時訓練數據，遠低於行業主流商用模型。同時，GLM-TTS 也兼顧了訓練成本和效果，預訓練僅需要單機 4 天即可得到開源 SOTA“發音準確度”與超高“音色還原度”，精品音色 LORA 和強化學習也僅需要單機 1 天即可完成訓練，遠低於行業平均水平。

另外，GLM‑TTS 還以更低的價格獲得了行業領先的 MOS 分數（平均主觀意見分）。

GLM‑TTS 相關資源（模型權重、推理腳本、示例項目等）：

GitHub：https://github.com/zai-org/GLM-TTS
Hugging Face：https://huggingface.co/zai-org/GLM-TTS

發佈評論