Meta AI 推出“全語種”語音識別系統,支持 1600+ 語言

新聞
HongKong
17
03:33 PM · Nov 11 ,2025

Meta的基礎人工智能研究(FAIR)團隊近日開源了 Omnilingual ASR,一款創新的自動語音識別系統,能夠轉錄超過1600種口語語言。模型基於PyTorch的fairseq2框架構建,提供了從適用於低功耗設備的3億參數版本到追求“頂級準確度”的70億參數版本。

此舉旨在彌合現有AI工具在語言覆蓋上的巨大差距,正式邁向“通用轉錄系統”的目標。Meta指出,在其支持的1600種語言中,有500種語言此前從未被任何人工智能系統覆蓋。

  • 在測試的1600種語言中,系統對78%的語言實現了低於10個字符的錯誤率。
  • 對於擁有至少10小時訓練音頻的“資源豐富”語言,這一準確率標準達到了95%的覆蓋。
  • 即使是音頻時長不足10小時的“低資源”語言,也有36%的語言錯誤率低於10個字符的閾值,為這些羣體帶來了實用的語音識別功能。

Omnilingual ASR的一個關鍵創新是其“自帶語言”選項,該功能借鑑大型語言模型的情境學習技術。用户只需提供少量的音頻和文本配對樣本,系統即可直接從這些樣本中學習新語言,無需重新訓練或大量的計算資源。

Meta表示,理論上,這一方法有望將Omnilingual ASR的覆蓋範圍擴展到超過5400種語言,遠遠超越了當前的行業標準。

此外,Meta同步發佈了全語言自動語音識別語料庫(Omnilingual ASR Corpus),這是一個包含350種代表性不足語言的大型轉錄語音數據集。該數據以知識共享署名許可協議(CC-BY)發佈,旨在幫助全球開發者調整語音識別模型,以滿足特定的本地化需求。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.