博客 / 詳情

返回

端到端語音語言大模型全新發布,超逼真、超低時延、超低成本

百度發佈業界首個基於Cross-Attention的端到端語音語言大模型,開啓語音交互新紀元
在語音交互技術不斷革新的今天,百度再次引領行業潮流,於近日正式發佈了業界首個基於全新Cross-Attention的端到端語音語言大模型;這一創新成果不僅標誌着語音交互技術邁入了一個全新的發展階段,也為未來智能助手的應用場景開闢了更為廣闊的空間。

端到端語音語言大模型:定義語音交互新標準
百度此次發佈的端到端語音語言大模型,以其超逼真的語音交互體驗、超低的響應時延以及超低的調用成本,重新定義了語音交互的標準。該模型不僅能夠精準識別包括重慶、廣西、河南、廣東、山東等在內的多地方言,還能實現情感飽滿、自然流暢的對話交流,讓用户彷彿在與真人對話。

技術亮點解析

1.超逼真交互體驗:通過集成38個垂類助手功能,能夠高效處理天氣查詢、日曆查詢、單位換算、股票股價查詢等多樣化信息需求;同時,對於時效性和非時效性問題,均能給出精準且實時的回答,展現出強大的信息檢索和指令跟隨能力。

2.超低響應時延:在對話過程中,融合RTC低延遲AEC處理以及對齊技術,結合流式逐字合成,顯著提升了多模態交互時的響應速度。

3.超低調用成本:低成本高速推理,在滿足語音交互硬延遲要求的同時,極大降低了使用成本。

五大核心創新點

1.業界首個基於Cross-Attention的語音語言大模型:百度首次將Cross-Attention機制應用於語音語言大模型中,實現了語音與文本之間的深度跨模態融合。

2.高效的全查詢注意力EALLQA技術:採用隱式RNN兩級位置編碼,訓練時在128空間上的MHA,推理在模型各層共享的512空間上的MQA,將KV cache降低到幾十分之一,進一步提升模型的推理效率。

3.Encoder與語音識別結合:實現對用户question的極速理解,計算量顯著降低10倍。
4.Decoder與語音合成結合:依賴大模型強Context理解能力,直接生成語音合成所需的文本、情感、風格以及TN、多音字、韻律等信息。

5.流式逐字的情感語音合成:業內領先的流式逐字語音合成,結合大模型實現多情感、超自然合成效果,同時語音語言大模型與合成系統一體化輸出,打造極致性價比。

推動語音交互技術普及
成本降低是技術進步的必然結果,也是推動語音交互技術大規模應用的關鍵。此次百度發佈的端到端語音語言大模型不僅在技術上實現了重大突破,更通過開放平台的方式,加速了該技術在智能硬件、社交娛樂APP等業務場景中的應用與普及。

隨着百度端到端語音語言大模型的正式發佈,語音交互技術正式邁入了一個全新的發展階段。該模型以其超逼真的交互體驗、超低的響應時延以及超低的調用成本,為未來智能助手的應用場景提供了無限可能。

端到端語言語音大模型現已入駐千帆ModelBuilder模型廣場,點擊詳情頁立即體驗
https://console.bce.baidu.com/qianfan/modelcenter/model/build...

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.