本文詳細介紹了幾種先進的文本轉語音(TTS)技術,包括基於語音轉換的少樣本説話人自適應、跨説話人風格遷移、通過重組現有數據進行分佈增強的方法,以及利用標準化流進行文本無關的多對多語音轉換。這些方法旨在提升語音合成的質量、表達力和數據效率。

在今年的聲學、語音與信號處理國際會議(ICASSP)上,某中心的文本轉語音(TTS)團隊發表了四篇論文。這些論文均涉及語音轉換(在保持韻律特徵的同時將一種合成語音轉換為另一種)、數據增強,或兩者兼而有之。

該團隊的研究對於某機構的語音助手至關重要,因為這是其與用户溝通的方式。其開發的模型也通過其雲服務中的文本轉語音服務向客户開放。

以下是對這四篇論文核心內容的概述:

1. 《語音過濾器:使用語音轉換作為後處理模塊進行少樣本文本轉語音説話人自適應》
本文針對少樣本説話人自適應問題——即僅從少量訓練樣本中學習新的合成語音。論文將該問題重新定義為學習一個語音轉換模型,該模型應用於高質量TTS模型的輸出。這是對現有少樣本TTS範式的概念性轉變。

其核心思想是:對於少樣本學習,將現有高質量TTS模型輸出的語音譜圖,適配到新的目標語音,比直接調整模型本身更容易。關鍵在於,“語音過濾器”是在TTS模型自身生成的合成數據上進行訓練的。該TTS模型是時長可控的,這意味着輸入文本會被編碼以指示每個音素在輸出語音中的持續時間。這使研究人員能夠創建兩個平行的訓練數據語料庫:一個由120位不同説話人的真實樣本組成,另一個則是TTS模型生成的但時長與多説話人樣本相匹配的合成語音。

語音過濾器在平行語料庫上訓練後,對於少樣本學習,只需在新説話人數據上進行微調。實驗表明,這種方法產生的語音質量與使用30倍數據訓練的傳統模型相當。

2. 《使用數據增強進行跨説話人風格遷移的文本轉語音》
這篇論文展示瞭如何構建一個能夠進行富有表現力語音合成的TTS模型,即使目標語音的唯一可用訓練數據是中性語音。其思路是:首先訓練一個語音轉換模型,將其他語音中的富有表現力的語音樣本轉換為目標語音,然後將轉換後的語音作為TTS模型的額外訓練數據。

該TTS模型接收兩個輸入:文本序列和風格向量。在訓練期間,文本序列傳遞給TTS模型,目標語音樣本的譜圖傳遞給一個參考編碼器以產生風格嵌入。在推理時,雖然沒有輸入譜圖,但研究人員證明可以通過向模型輸入預先計算的風格嵌入來控制輸出風格。

根據使用MUSHRA感知量表的人類評估,相對於基準模型,新模型在14位不同説話人上將合成語音與真實語音之間感知到的風格相似度差距平均縮小了58%。

3. 《針對低資源表達性文本轉語音的分佈增強》
本文考慮了缺乏新語音訓練數據的情況。目標是通過置換現有樣本的文本產生新的文本,並重新組合相應語音樣本的片段來產生新的語音樣本。這並未增加訓練目標的聲學多樣性,但增加了訓練輸入的語言學多樣性。

為確保合成的訓練示例在句法上不會過於不連貫,研究人員為輸入文本構建了句法分析樹,然後在樹之間交換句法上等效的分支。交換聲學信號中相應部分需要文本和信號之間良好的對齊,這由現有的強制對齊模型完成。

為防止TTS模型對合成示例過度偏向,訓練時還在輸入中加入了一個特殊標記,用於指示兩個現有樣本被融合在一起的位置。模型將學習優先處理來自真實樣本內部的音素序列,而非跨越融合樣本邊界的序列。在推理時,該標記的值在所有輸入中均設為0。

人類評估表明,新模型在五個不同數據集上的語音輸出質量均優於基準模型。

4. 《使用標準化流進行文本無關的非平行多對多語音轉換》
在這篇論文中,某中心TTS團隊將標準化流的概念(已廣泛應用於TTS)應用於語音轉換問題。與大多數深度學習模型一樣,標準化流學習生成輸入數據的向量表示的函數。不同之處在於,這些函數是可逆的,因此可以從表示中恢復輸入。團隊假設,保留更多輸入信息將產生更好的語音轉換,早期實驗證實了這一假設。

該流程的輸入包括源譜圖、音素嵌入、説話人身份嵌入、聲學信號的基本頻率以及指示音頻幀是否發聲的標誌。流程將輸入映射到特定應用域中的音素頻率分佈。

通常,標準化流會從訓練數據中同時學習分佈和映射。但在這裏,研究人員先在標準TTS任務上對流程進行預訓練(該任務數據充足),以預先學習分佈。由於流程是可逆的,只要其他模型輸入(音素嵌入、説話人ID等)可用,表示空間中的向量就可以映射回一組源輸入。為了使用標準化流進行語音轉換,研究人員只需在此反向映射過程中替換説話人。

研究人員在兩種實驗設置下進行了檢驗:一種是語音轉換模型同時接收文本序列和譜圖作為輸入,另一種是僅接收譜圖。在後一種情況下,預訓練的標準化流模型顯著優於基準模型。直接從訓練數據中學習音素分佈的標準化流模型表現較差,這説明了預訓練步驟的重要性。