通義百聆語音雙子星升級並開源,大幅提升語音合成與識別能力

新聞
HongKong
8
07:04 PM · Dec 15 ,2025

據通義大模型官方消息,通義百聆宣佈其語音大模型Fun-CosyVoice3與Fun-ASR完成重大升級並同步開源。此次升級聚焦核心性能與實用性,為開發者與企業提供更強大的語音AI工具。

Fun-CosyVoice3:實時、精準的語音合成

模型首包延遲降低50%,實現“輸入即發聲”。中英混説錯誤率大幅下降56.4%,並支持9種語言、18種方言及情感控制。其開源版本Fun-CosyVoice3-0.5B具備優秀的zero-shot音色克隆能力。

Fun-ASR:強悍抗干擾的語音識別

該模型在嘈雜環境下準確率達93%,新增歌詞與説唱識別功能。支持31種語言自由混説與多種中文方言,流式識別首字延遲僅160毫秒。輕量化版本Fun-ASR-Nano-0.8B同步開源,推理成本更低。

模型已在魔搭、HuggingFace及GitHub等平台開源,支持本地部署與二次開發。

https://github.com/FunAudioLLM/Fun-ASR(GitHub)
https://funaudiollm.github.io/funasr/(GitHub.io)
https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(國內體驗demo)
https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外體驗demo)
https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(國內模型倉庫)
https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型倉庫)

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.