ElevenLabs 推出 Scribe v2 Realtime：低延遲實時語音識別模型

ElevenLabs 正式發佈 Scribe v2 Realtime，據稱這是當前市場上最先進的低延遲實時語音識別模型，專為實時場景設計，能夠將語音即時轉換為文字，為語音智能、會議筆記、實時字幕等應用提供基礎能力。

Scribe v2 Realtime 採用流式優先架構，支持 PCM 與 μ-law 等多種音頻格式，並具備預測轉寫、語音活動檢測（VAD）、上下文記憶及複雜術語識別等核心能力。在 FLEURS 多語言基準測試中，其準確率達 93.5%，顯著優於 Google Gemini Flash 2.5、OpenAI GPT-4o Mini 等競品。

核心亮點：實時、準確、智能

超低延遲：Scribe v2 Realtime 支持實時流式轉寫，語音到文字的延遲低至 150 毫秒級，幾乎實現“邊説邊寫”。這種延遲表現對於交互式 AI 代理和直播客服等場景尤為關鍵。
多語言支持：模型覆蓋 90 多種語言，包括英語、法語、西班牙語等主流語言，同時可在同一對話中自動識別並切換語言，適合跨國和多語種應用場景。
更強的實時理解能力：通過“負延遲預測”（預測下一個詞和標點）、自動語言檢測以及文本條件推理等技術，提升了模型的實時連貫性和自然對話體驗。
噪音與真實場景適應性強：內部基準測試顯示，在包含背景噪音和複雜信息的 500 多條樣本中，該模型在噪音環境下仍能保持卓越性能，明顯優於現有實時 ASR 方案。

ElevenLabs 通過 Scribe v2 Realtime 着力在實時智能語音識別領域打造一套低延遲、高準確、多語言覆蓋的解決方案。該模型不僅適用於 AI 語音代理和會議助手等實時場景，也為開發者提供了強大的開發工具與企業級部署支持。

發佈評論

Product

Company

Support

Company

ElevenLabs 推出 Scribe v2 Realtime：低延遲實時語音識別模型

發佈 評論

發佈評論