經同意的語音克隆詳情 - AI HuggingFace 博客

在這篇博客文章中，我們介紹了“語音同意驗證機制 (voice consent gate)”的概念，支持通過明確同意來進行語音克隆。我們還提供了一個示例 Space 應用和相關代碼，幫助大家快速上手這一想法。

近年來，逼真的語音生成技術已經達到了令人驚訝的水平。在某些情況下，生成出來的合成語音幾乎能以假亂真，和真人的聲音非常相似。如今，曾經只存在於科幻小説中的“語音克隆”已經成為現實。只需要幾秒鐘的錄音，就能讓任何人的聲音“説出”任何內容。

語音生成，尤其是語音克隆技術，既有風險也有益處。它可能被用於製作“深度偽造”內容，例如有人用前總統 Biden 的克隆語音進行自動電話宣傳，誤導公眾以為他説過其實並未説的話。但與此同時，語音克隆也可以帶來積極作用，比如幫助失語者重新用自己的聲音表達，或者輔助人們學習語言和方言。

那麼，我們該如何實現“有意義的使用”而不是“惡意的濫用”？我們正在探索一種可能的答案：引入一個語音同意驗證機制 (voice consent gate)。也就是説，只有當説話人明確表達了同意，語音克隆模型才能使用其聲音。換句話説，模型不會擅自“説出”你的聲音，除非你親口同意。

下面是我們對這一想法的基礎演示：https://society-ethics-repeatafterme.hf.space

實踐中的倫理：將“同意”融入系統基礎設施

語音同意門是我們正在嘗試的一種基礎設施設計，用來把“同意”這樣的倫理原則直接嵌入到 AI 系統的工作流程中。在我們的演示中，模型只有在檢測到説話人清楚地説出了同意語句之後，才會啓動。也就是説，“同意”成為系統運行的前提條件，讓原本抽象的倫理原則變成了具體可操作的系統規則，並形成可追溯、可審核的交互記錄：AI 模型只會在明確同意之後才運行。

這樣的設計不僅適用於語音克隆，更展示瞭如何從系統層面保障用户的自主權，以及如何將透明和同意變成 可執行的功能，而不僅僅是口頭承諾。

技術細節

要構建一個包含語音同意門的基礎語音克隆系統，你需要以下三部分：

一種方法，用來生成説話人當前上下文中可用的、表達明確同意的唯一語句。
一個 自動語音識別（ASR）系統，用於識別説話人所説的同意語句。
一個 語音克隆的文本轉語音（TTS）系統，可以接收文本和説話人的語音片段來合成新的語音。

我們的發現是： 現在很多語音克隆模型只需要一句話就能模仿説話人的聲音，因此這句用於表達“同意”的句子，也可以同時作為語音克隆的輸入數據。

實現方法

關於“同意”：
在英語語音克隆系統中創建語音同意門的方式是：為説話人生成一句簡短、自然、約20個單詞左右的英文語句，讓其朗讀。這句話要明確表達對當前使用情境的知情同意。我們建議在句中明確包含“同意語句”和“模型名稱”，比如：“I give my consent to use the voice cloning model with my voice（我同意使用 <模型名稱> 語音克隆模型克隆我的聲音）”。同時建議使用 麥克風實時錄音，而不是上傳音頻文件，以防止使用之前錄音剪輯過的語音。使用全新（從未説過的）句子也能進一步確保這個“同意”是針對當前情境、主動做出的、知情且明確的同意。

當然，這種設計不是萬無一失的。理論上，人們依然可能用其他 TTS 系統來偽造這段“同意”語音。未來的版本可以進一步嘗試音頻來源驗證、説話人嵌入相似度分析、或通過實時錄音元數據來提升驗證能力。

關於“適合語音克隆的語句”部分：
已有的語音克隆研究表明，用於訓練模型的語句需要具備以下幾個特點：

音素多樣性：語句中應包含多種元音和輔音，確保發音覆蓋範圍廣，參考文獻。
語氣中性或禮貌：語音應保持自然、平靜或友善的語調，參考文獻，避免情緒化表達。
錄音環境安靜，發音自然：儘量避免背景噪音，並在説話人狀態舒適時錄製。
語音片段要有完整的起止：錄音剪輯時不能截斷詞語，要保留完整的一句話，確保語音首尾清晰。

為了實現這兩個目標，在演示中我們使用語言模型自動生成一組句子：一句用於表達明確的同意，另一句則是中性內容，用於增加音素多樣性（覆蓋不同的元音、輔音和語調）。
每次生成時，系統會隨機選擇一個日常話題（如天氣、美食或音樂），使句子內容豐富多樣，也更自然好讀，有助於錄音清晰、自然，並具備良好的語音質量，同時包含明確的同意聲明。
這個句子生成過程是 自動完成 的，而不是預先寫好的，確保每位用户都會獲得 獨一無二 的句子組合，避免文本被重複使用，也確保每次錄音都是針對當前會話場景所做出的具體同意。
換句話説，語言模型在每次“同意實例”中都會生成兩句全新的句子：

一句表達明確的使用同意，
一句則用於增加語音中的音素多樣性。

比如，模型可能會生成如下內容：
“I give my consent to use my voice for generating audio with the model EchoVoice. The weather is bright and calm this morning.”

這種做法確保了所有用於語音克隆的樣本都具有 可驗證的明確同意，同時也符合高質量語音合成所需的技術標準。
（注：生成句子的語言模型不必是“大型語言模型”，因為後者本身也可能涉及額外的同意問題。）

更多例子：

“I give my consent to use my voice for generating synthetic audio with the Chatterbox model today. My daily commute involves navigating through crowded streets on foot most days lately anyway.”
“I give my consent to use my voice for generating audio with the model Chatterbox. After a gentle morning walk, I'm feeling relaxed and ready to speak freely now.”
“I agree to the use of my recorded voice for audio generation with the model Chatterbox. The coffee shop outside has a pleasant aroma of freshly brewed coffee this morning.”

解鎖語音同意門

當説話人讀出的語句與系統生成的文本完全匹配後，語音克隆系統便可啓動，並使用這段“同意”語音作為訓練輸入。

目前已有幾種實現方式，當然我們也很歡迎更多建議：

演示中提供的方式： 同意門一旦開啓，系統就可以直接進入語音克隆階段，用户可輸入任意文本，生成對應的合成語音。此時，模型會直接利用“同意”語音作為訓練數據。
可選方案一： 修改演示中的代碼，使系統可以接受多個語音文件來建模用户的聲音——比如用户授權使用網絡上存在的錄音。此時提示語和同意語句也需相應調整。
可選方案二： 將同意錄音保存下來，以便後續系統中用於生成任意語句。這可以通過 huggingface_hub 上傳功能實現，相關指南在此。同樣需要根據使用場景調整提示語和同意內容。

點此查看我們的演示！

你可以複製代碼，自行調整使用。

該代碼是模塊化的，可以根據項目需求進行裁剪和改寫。我們也正在持續優化系統的穩健性與安全性，歡迎提出改進建議。

只要負責任地使用，這項技術並不一定是“幽靈般”的存在。它完全可以成為人與機器之間 相互尊重的協作工具 ——沒有幽靈上身，只有良好規範的技術實踐。🎃

英文原文: https://huggingface.co/blog/voice-consent-gate

原文作者: Margaret Mitchell, Lucie-Aimée Kaffee

譯者: Luke, Hugging Face Fellow

HuggingFace 博客

HuggingFace 博客

博客 / 詳情