xAI正式發佈Grok Voice Agent API,面向開發者開放其在Tesla車輛及移動應用中已驗證的語音代理技術。據介紹,該API支持數十種語言,具備實時工具調用與網絡搜索能力,平均首音頻響應時間低於1秒,在Big Bench Audio評測中位列第一。
Grok Voice Agent API在Big Bench Audio音頻推理基準測試中排名第一,平均首音頻響應時間小於1秒,比最接近的競爭對手快近5倍。該API採用固定費率計費,每分鐘連接時間收費0.05美元。
Grok Voice Agent採用自研全棧語音技術,包括語音活動檢測、分詞器與音頻模型,定價為每分鐘0.05美元。API兼容OpenAI Realtime規範,並提供Ara、Eve、Leo等多款自然表達語音。
目前支持通過xAI LiveKit插件或瀏覽器語音沙盒快速接入。