面壁智能發佈 VoxCPM 1.5，面向高擬真語音生成的新型端到端 TTS 模型 - 新聞詳情 | YeLogs.com

面壁智能發佈 VoxCPM 1.5，面向高擬真語音生成的新型端到端 TTS 模型

新聞

HongKong

45

12:44 PM · Dec 11 ,2025

面壁智能宣佈，面向高擬真語音生成的新型端到端 TTS 模型 VoxCPM 1.5 版本正式上線。

更新亮點一覽：

高採樣音頻克隆：AudioVAE 採樣率從 16kHz 提升至 44.1kHz ，模型可根據高質量音頻，克隆效果更佳、細節更豐富的聲音；
生成效率翻倍：在模型參數有所增加的前提下，VoxCPM 1.5 僅需 6.25 個 token 即可生成 1 秒音頻，較此前版本提高一倍，在保持速度的同時提升了音頻生成質量；
開發者友好：新增 LoRA 和全量微調腳本，支持深度定製；
增強穩定性：減少音頻偽影，優化長文本音頻的生成效果。

目前，模型已在 Github、Hugging Face 開源。

Huggingface：https://huggingface.co/openbmb/VoxCPM1.5
Github：https://github.com/OpenBMB/VoxCPM

0 位用戶收藏了這個故事！