微軟開源統一語音識別模型 VibeVoice-ASR,專為長音頻設計

新聞
HongKong
5
11:34 AM · Jan 22 ,2026

微軟開源了 9B 參數的全新統一語音識別模型 VibeVoice-ASR,支持處理長達 60分鐘的長音頻,能夠在單次處理中生成包含説話人身份、精確時間戳和文本內容的結構化轉錄結果。模型支持用户自定義熱詞以提升特定領域的識別準確率。

VibeVoice-ASR 主要特性:

  • 單次處理最長 60 分鐘音頻:與將音頻分割成短片段(通常會丟失全局上下文)的傳統 ASR 模型不同,VibeVoice ASR 可接受長達 60 分鐘的連續音頻輸入,每個音頻片段長度為 64K。這確保了整整一小時內説話人追蹤的一致性和語義連貫性。

  • 自定義熱詞:用户可以提供自定義熱詞(例如,特定名稱、技術術語或背景信息)來指導識別過程,從而顯著提高特定領域內容的識別準確率。

  • 豐富的轉錄(誰、何時、什麼):該模型聯合執行 ASR、人聲分割和時間戳功能,生成結構化的輸出:「誰 在 何時 説了什麼」。

模型整體架構如下:

開源地址

https://huggingface.co/microsoft/VibeVoice-ASR
https://github.com/microsoft/VibeVoice

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.