面壁智能發佈 VoxCPM 1.5,面向高擬真語音生成的新型端到端 TTS 模型

新聞
HongKong
7
12:44 PM · Dec 11 ,2025

面壁智能宣佈,面向高擬真語音生成的新型端到端 TTS 模型 VoxCPM 1.5 版本正式上線。

更新亮點一覽:

  • 高採樣音頻克隆:AudioVAE 採樣率從 16kHz 提升至 44.1kHz ,模型可根據高質量音頻,克隆效果更佳、細節更豐富的聲音;
  • 生成效率翻倍:在模型參數有所增加的前提下,VoxCPM 1.5 僅需 6.25 個 token 即可生成 1 秒音頻,較此前版本提高一倍,在保持速度的同時提升了音頻生成質量;
  • 開發者友好:新增 LoRA 和全量微調腳本,支持深度定製;
  • 增強穩定性:減少音頻偽影,優化長文本音頻的生成效果。

目前,模型已在 Github、Hugging Face 開源。

Huggingface:https://huggingface.co/openbmb/VoxCPM1.5
Github:https://github.com/OpenBMB/VoxCPM

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.