初創公司 Resemble AI 在 MIT 協議下開源了名為“Chatterbox Turbo”的文本轉語音模型。這款模型在性能上實現了顯著突破,僅需五秒鐘的參考音頻即可精準克隆目標語音,並在短短150毫秒內輸出首個音頻片段。
這種極致的低延遲表現,使其成為構建實時 AI 代理、自動化客户支持、動態遊戲角色、虛擬形象以及社交平台交互的理想選擇。Resemble AI 聲稱,該模型在語音質量上已超越現有閉源競品,能為開發者提供更自然的合成體驗。
在安全合規方面,Chatterbox Turbo 針對受監管行業內置了名為“PerTh”的神經水印功能,可用於驗證語音的 AI 生成身份,有效應對深度偽造風險。
目前,Resemble AI 已同步提供託管服務,並計劃在近期推出進一步優化延遲的版本,旨在通過開源生態重塑語音合成市場的競爭格局。