ElevenLabs 正式發佈 Scribe v2 Realtime,據稱這是當前市場上最先進的低延遲實時語音識別模型,專為實時場景設計,能夠將語音即時轉換為文字,為語音智能、會議筆記、實時字幕等應用提供基礎能力。
Scribe v2 Realtime 採用流式優先架構,支持 PCM 與 μ-law 等多種音頻格式,並具備預測轉寫、語音活動檢測(VAD)、上下文記憶及複雜術語識別等核心能力。在 FLEURS 多語言基準測試中,其準確率達 93.5%,顯著優於 Google Gemini Flash 2.5、OpenAI GPT-4o Mini 等競品。
核心亮點:實時、準確、智能
- 超低延遲:Scribe v2 Realtime 支持實時流式轉寫,語音到文字的延遲低至 150 毫秒級,幾乎實現“邊説邊寫”。這種延遲表現對於交互式 AI 代理和直播客服等場景尤為關鍵。
- 多語言支持:模型覆蓋 90 多種語言,包括英語、法語、西班牙語等主流語言,同時可在同一對話中自動識別並切換語言,適合跨國和多語種應用場景。
- 更強的實時理解能力:通過“負延遲預測”(預測下一個詞和標點)、自動語言檢測以及文本條件推理等技術,提升了模型的實時連貫性和自然對話體驗。
- 噪音與真實場景適應性強:內部基準測試顯示,在包含背景噪音和複雜信息的 500 多條樣本中,該模型在噪音環境下仍能保持卓越性能,明顯優於現有實時 ASR 方案。
ElevenLabs 通過 Scribe v2 Realtime 着力在實時智能語音識別領域打造一套低延遲、高準確、多語言覆蓋的解決方案。該模型不僅適用於 AI 語音代理和會議助手等實時場景,也為開發者提供了強大的開發工具與企業級部署支持。