博客 / 詳情

返回

經同意的語音克隆

在這篇博客文章中,我們介紹了“語音同意驗證機制 (voice consent gate)”的概念,支持通過明確同意來進行語音克隆。我們還提供了一個 示例 Space 應用 和 相關代碼,幫助大家快速上手這一想法。

Line-drawing/clipart of a gate, where the family name says Consent

近年來,逼真的語音生成技術已經達到了令人驚訝的水平。在某些情況下,生成出來的合成語音幾乎能以假亂真,和真人的聲音非常相似。如今,曾經只存在於科幻小説中的“語音克隆”已經成為現實。只需要幾秒鐘的錄音,就能讓任何人的聲音“説出”任何內容。

語音生成,尤其是語音克隆技術,既有風險也有益處。它可能被用於製作“深度偽造”內容,例如 有人用前總統 Biden 的克隆語音進行自動電話宣傳,誤導公眾以為他説過其實並未説的話。但與此同時,語音克隆也可以帶來積極作用,比如 幫助失語者 重新用自己的聲音表達,或者輔助人們學習語言和方言。

那麼,我們該如何實現“有意義的使用”而不是“惡意的濫用”?我們正在探索一種可能的答案:引入一個語音同意驗證機制 (voice consent gate)。也就是説,只有當説話人明確表達了同意,語音克隆模型才能使用其聲音。換句話説,模型不會擅自“説出”你的聲音,除非你親口同意。

下面是我們對這一想法的基礎演示:https://society-ethics-repeatafterme.hf.space

實踐中的倫理:將“同意”融入系統基礎設施

語音同意門是我們正在嘗試的一種基礎設施設計,用來把“同意”這樣的倫理原則直接嵌入到 AI 系統的工作流程中。在我們的演示中,模型只有在檢測到説話人清楚地説出了同意語句之後,才會啓動。也就是説,“同意”成為系統運行的前提條件,讓原本抽象的倫理原則變成了具體可操作的系統規則,並形成可追溯、可審核的交互記錄:AI 模型只會在明確同意之後才運行。

這樣的設計不僅適用於語音克隆,更展示瞭如何從系統層面保障用户的自主權,以及如何將透明和同意變成 可執行的功能,而不僅僅是口頭承諾。

技術細節

要構建一個包含語音同意門的基礎語音克隆系統,你需要以下三部分:

  1. 一種方法,用來生成説話人當前上下文中可用的、表達明確同意的唯一語句。
  2. 一個 自動語音識別(ASR)系統,用於識別説話人所説的同意語句。
  3. 一個 語音克隆的文本轉語音(TTS)系統,可以接收文本和説話人的語音片段來合成新的語音。

我們的發現是: 現在很多語音克隆模型只需要一句話就能模仿説話人的聲音,因此這句用於表達“同意”的句子,也可以同時作為語音克隆的輸入數據。

實現方法

關於“同意”:
在英語語音克隆系統中創建語音同意門的方式是:為説話人生成一句簡短、自然、約20個單詞左右的英文語句,讓其朗讀。這句話要明確表達對當前使用情境的知情同意。我們建議在句中明確包含“同意語句”和“模型名稱”,比如:“I give my consent to use the voice cloning model with my voice(我同意使用 <模型名稱> 語音克隆模型克隆我的聲音)”。同時建議使用 麥克風實時錄音,而不是上傳音頻文件,以防止使用之前錄音剪輯過的語音。使用全新(從未説過的)句子也能進一步確保這個“同意”是針對當前情境、主動做出的、知情且明確的同意。

當然,這種設計不是萬無一失的。理論上,人們依然可能用其他 TTS 系統來偽造這段“同意”語音。未來的版本可以進一步嘗試音頻來源驗證、説話人嵌入相似度分析、或通過實時錄音元數據來提升驗證能力。

關於“適合語音克隆的語句”部分:
已有的語音克隆研究表明,用於訓練模型的語句需要具備以下幾個特點:

  • 音素多樣性:語句中應包含多種元音和輔音,確保發音覆蓋範圍廣,參考文獻。
  • 語氣中性或禮貌:語音應保持自然、平靜或友善的語調,參考文獻,避免情緒化表達。
  • 錄音環境安靜,發音自然:儘量避免背景噪音,並在説話人狀態舒適時錄製。
  • 語音片段要有完整的起止:錄音剪輯時不能截斷詞語,要保留完整的一句話,確保語音首尾清晰。

為了實現這兩個目標,在演示中我們使用語言模型自動生成一組句子:一句用於表達明確的同意,另一句則是中性內容,用於增加音素多樣性(覆蓋不同的元音、輔音和語調)。
每次生成時,系統會隨機選擇一個日常話題(如天氣、美食或音樂),使句子內容豐富多樣,也更自然好讀,有助於錄音清晰、自然,並具備良好的語音質量,同時包含明確的同意聲明。
這個句子生成過程是 自動完成 的,而不是預先寫好的,確保每位用户都會獲得 獨一無二 的句子組合,避免文本被重複使用,也確保每次錄音都是針對當前會話場景所做出的具體同意。
換句話説,語言模型在每次“同意實例”中都會生成兩句全新的句子:

  • 一句表達明確的使用同意,
  • 一句則用於增加語音中的音素多樣性。

比如,模型可能會生成如下內容:
“I give my consent to use my voice for generating audio with the model EchoVoice. The weather is bright and calm this morning.”

這種做法確保了所有用於語音克隆的樣本都具有 可驗證的明確同意,同時也符合高質量語音合成所需的技術標準。
(注:生成句子的語言模型不必是“大型語言模型”,因為後者本身也可能涉及額外的同意問題。)

更多例子:

  • “I give my consent to use my voice for generating synthetic audio with the Chatterbox model today. My daily commute involves navigating through crowded streets on foot most days lately anyway.”
  • “I give my consent to use my voice for generating audio with the model Chatterbox. After a gentle morning walk, I'm feeling relaxed and ready to speak freely now.”
  • “I agree to the use of my recorded voice for audio generation with the model Chatterbox. The coffee shop outside has a pleasant aroma of freshly brewed coffee this morning.”

解鎖語音同意門

當説話人讀出的語句與系統生成的文本完全匹配後,語音克隆系統便可啓動,並使用這段“同意”語音作為訓練輸入。

目前已有幾種實現方式,當然我們也很歡迎更多建議:

  • 演示中提供的方式: 同意門一旦開啓,系統就可以直接進入語音克隆階段,用户可輸入任意文本,生成對應的合成語音。此時,模型會直接利用“同意”語音作為訓練數據。
  • 可選方案一: 修改演示中的代碼,使系統可以接受多個語音文件來建模用户的聲音——比如用户授權使用網絡上存在的錄音。此時提示語和同意語句也需相應調整。
  • 可選方案二: 將同意錄音保存下來,以便後續系統中用於生成任意語句。這可以通過 huggingface_hub 上傳功能實現,相關指南在此。同樣需要根據使用場景調整提示語和同意內容。

點此查看我們的演示!

你可以複製代碼,自行調整使用。

該代碼是模塊化的,可以根據項目需求進行裁剪和改寫。我們也正在持續優化系統的穩健性與安全性,歡迎提出改進建議。

只要負責任地使用,這項技術並不一定是“幽靈般”的存在。它完全可以成為人與機器之間 相互尊重的協作工具 ——沒有幽靈上身,只有良好規範的技術實踐。🎃

英文原文: https://huggingface.co/blog/voice-consent-gate

原文作者: Margaret Mitchell, Lucie-Aimée Kaffee

譯者: Luke, Hugging Face Fellow

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.