在這篇博客文章中,我們介紹了“語音同意驗證機制 (voice consent gate)”的概念,支持通過明確同意來進行語音克隆。我們還提供了一個 示例 Space 應用 和 相關代碼,幫助大家快速上手這一想法。

近年來,逼真的語音生成技術已經達到了令人驚訝的水平。在某些情況下,生成出來的合成語音幾乎能以假亂真,和真人的聲音非常相似。如今,曾經只存在於科幻小説中的“語音克隆”已經成為現實。只需要幾秒鐘的錄音,就能讓任何人的聲音“説出”任何內容。
語音生成,尤其是語音克隆技術,既有風險也有益處。它可能被用於製作“深度偽造”內容,例如 有人用前總統 Biden 的克隆語音進行自動電話宣傳,誤導公眾以為他説過其實並未説的話。但與此同時,語音克隆也可以帶來積極作用,比如 幫助失語者 重新用自己的聲音表達,或者輔助人們學習語言和方言。
那麼,我們該如何實現“有意義的使用”而不是“惡意的濫用”?我們正在探索一種可能的答案:引入一個語音同意驗證機制 (voice consent gate)。也就是説,只有當説話人明確表達了同意,語音克隆模型才能使用其聲音。換句話説,模型不會擅自“説出”你的聲音,除非你親口同意。
下面是我們對這一想法的基礎演示:https://society-ethics-repeatafterme.hf.space

實踐中的倫理:將“同意”融入系統基礎設施
語音同意門是我們正在嘗試的一種基礎設施設計,用來把“同意”這樣的倫理原則直接嵌入到 AI 系統的工作流程中。在我們的演示中,模型只有在檢測到説話人清楚地説出了同意語句之後,才會啓動。也就是説,“同意”成為系統運行的前提條件,讓原本抽象的倫理原則變成了具體可操作的系統規則,並形成可追溯、可審核的交互記錄:AI 模型只會在明確同意之後才運行。
這樣的設計不僅適用於語音克隆,更展示瞭如何從系統層面保障用户的自主權,以及如何將透明和同意變成 可執行的功能,而不僅僅是口頭承諾。
技術細節
要構建一個包含語音同意門的基礎語音克隆系統,你需要以下三部分:
- 一種方法,用來生成説話人當前上下文中可用的、表達明確同意的唯一語句。
- 一個 自動語音識別(ASR)系統,用於識別説話人所説的同意語句。
- 一個 語音克隆的文本轉語音(TTS)系統,可以接收文本和説話人的語音片段來合成新的語音。
我們的發現是: 現在很多語音克隆模型只需要一句話就能模仿説話人的聲音,因此這句用於表達“同意”的句子,也可以同時作為語音克隆的輸入數據。
實現方法
關於“同意”:
在英語語音克隆系統中創建語音同意門的方式是:為説話人生成一句簡短、自然、約20個單詞左右的英文語句,讓其朗讀。這句話要明確表達對當前使用情境的知情同意。我們建議在句中明確包含“同意語句”和“模型名稱”,比如:“I give my consent to use the
當然,這種設計不是萬無一失的。理論上,人們依然可能用其他 TTS 系統來偽造這段“同意”語音。未來的版本可以進一步嘗試音頻來源驗證、説話人嵌入相似度分析、或通過實時錄音元數據來提升驗證能力。
關於“適合語音克隆的語句”部分:
已有的語音克隆研究表明,用於訓練模型的語句需要具備以下幾個特點:
- 音素多樣性:語句中應包含多種元音和輔音,確保發音覆蓋範圍廣,參考文獻。
- 語氣中性或禮貌:語音應保持自然、平靜或友善的語調,參考文獻,避免情緒化表達。
- 錄音環境安靜,發音自然:儘量避免背景噪音,並在説話人狀態舒適時錄製。
- 語音片段要有完整的起止:錄音剪輯時不能截斷詞語,要保留完整的一句話,確保語音首尾清晰。
為了實現這兩個目標,在演示中我們使用語言模型自動生成一組句子:一句用於表達明確的同意,另一句則是中性內容,用於增加音素多樣性(覆蓋不同的元音、輔音和語調)。
每次生成時,系統會隨機選擇一個日常話題(如天氣、美食或音樂),使句子內容豐富多樣,也更自然好讀,有助於錄音清晰、自然,並具備良好的語音質量,同時包含明確的同意聲明。
這個句子生成過程是 自動完成 的,而不是預先寫好的,確保每位用户都會獲得 獨一無二 的句子組合,避免文本被重複使用,也確保每次錄音都是針對當前會話場景所做出的具體同意。
換句話説,語言模型在每次“同意實例”中都會生成兩句全新的句子:
- 一句表達明確的使用同意,
- 一句則用於增加語音中的音素多樣性。
比如,模型可能會生成如下內容:
“I give my consent to use my voice for generating audio with the model EchoVoice. The weather is bright and calm this morning.”
這種做法確保了所有用於語音克隆的樣本都具有 可驗證的明確同意,同時也符合高質量語音合成所需的技術標準。
(注:生成句子的語言模型不必是“大型語言模型”,因為後者本身也可能涉及額外的同意問題。)
更多例子:
- “I give my consent to use my voice for generating synthetic audio with the Chatterbox model today. My daily commute involves navigating through crowded streets on foot most days lately anyway.”
- “I give my consent to use my voice for generating audio with the model Chatterbox. After a gentle morning walk, I'm feeling relaxed and ready to speak freely now.”
- “I agree to the use of my recorded voice for audio generation with the model Chatterbox. The coffee shop outside has a pleasant aroma of freshly brewed coffee this morning.”
解鎖語音同意門
當説話人讀出的語句與系統生成的文本完全匹配後,語音克隆系統便可啓動,並使用這段“同意”語音作為訓練輸入。
目前已有幾種實現方式,當然我們也很歡迎更多建議:
- 演示中提供的方式: 同意門一旦開啓,系統就可以直接進入語音克隆階段,用户可輸入任意文本,生成對應的合成語音。此時,模型會直接利用“同意”語音作為訓練數據。
- 可選方案一: 修改演示中的代碼,使系統可以接受多個語音文件來建模用户的聲音——比如用户授權使用網絡上存在的錄音。此時提示語和同意語句也需相應調整。
- 可選方案二: 將同意錄音保存下來,以便後續系統中用於生成任意語句。這可以通過
huggingface_hub上傳功能實現,相關指南在此。同樣需要根據使用場景調整提示語和同意內容。
點此查看我們的演示!
你可以複製代碼,自行調整使用。
該代碼是模塊化的,可以根據項目需求進行裁剪和改寫。我們也正在持續優化系統的穩健性與安全性,歡迎提出改進建議。
只要負責任地使用,這項技術並不一定是“幽靈般”的存在。它完全可以成為人與機器之間 相互尊重的協作工具 ——沒有幽靈上身,只有良好規範的技術實踐。🎃
英文原文: https://huggingface.co/blog/voice-consent-gate
原文作者: Margaret Mitchell, Lucie-Aimée Kaffee
譯者: Luke, Hugging Face Fellow