MiniMax 發佈最新語音模型 MiniMax Speech 2.6 - 新闻 详情

MiniMax 發佈了最新的語音模型 MiniMax Speech 2.6,全面升級突破Voice Agent場景,超低延時,專業格式無障礙,更高自然度

 

1. 超低延時,更靈敏:整體交互更順暢

對音頻生成鏈路進行了全面優化,使端到端延遲低於250毫秒,達到了行業頂尖水平。在實時對話等對響應速度有嚴苛要求的場景中,音頻生成不再是瓶頸,確保整體交互更流暢。

 

2. 專業格式無障礙,更聰明:信息傳遞更流暢

Speech 2.6 現已支持多種語言的網址、郵箱、電話號碼、日期及金額等非標準文本格式的直接轉換。無論您是結合大語言模型使用,還是需要在業務中處理動態變化的實體信息,都無需再進行繁瑣的文本預處理。輸入即正確,實現信息傳遞更流暢。

例如,在傳統TTS中需要正確朗讀下面一段話,則需要做一系列轉換:

  • +1 415 415 9921 → “plus one, four one five, four one five, nine nine two one ”

  • $1,234.56 → “one thousand two hundred thirty-four dollars and fifty-six cents”

  • 192.168.1.1 → “one nine two dot one six eight dot one dot one”

  • 2032-5-6 → “May sixth, twenty thirty-two”

  • support-vip@technet.com → “support dash vip at technet dot com”

語段原文:Hello Oliver Smith, I'm your intelligent virtual assistant Max! Thank you for your call. I've found your file. The outstanding balance for the phone number +1 415 415 9921 is $1,234.56. The associated IP addresses is 192.168.1.1. Your next payment is due in 2032-5-6. If you have any questions, please contact support-vip@technet.com.

語段原文:您好Oliver Smith,我是您的智能虛擬助手Max!感謝您的來電,我已找到您的檔案。電話號碼14154159921 的未付清餘額為 ¥1,234.56。關聯的 IP 地址是 192.168.1.1。您的下一個付款到期日是 2032/5/6。如有任何疑問,請聯繫 support-vip@technet.com。

 

3. 更高自然度與Fluent LoRA:聲音表達更流利

進一步提升了音韻自然度之外,Speech 2.6 還提供了Fluent LoRA。

此前Speech 2.5就提供了便捷、高還原度的音色復刻功能,用户能夠保留原始音色的口音、口癖等特色。這一能力滿足了實際使用場景中多樣化的語音需求。

現在,音色復刻時,您無需再為不完美的原始素材而煩惱。即使是帶有口音或不流利的非母語錄音,也可通過 Fluent LoRA,在完美復刻音色的同時,生成符合目標文本的流利、自然的語音,讓您的聲音表達更流利。

除了視頻裏展示的英文場景外,模型支持的40+語種都可以實現在音色復刻時一鍵變流利,我們以日語場景為例:

Speech 2.6 已經全面上線:

MiniMax開放平台:Minimaxi.com/platform_overview

MiniMax Audio:Minimaxi.com/audio