Meta AI研究團隊近日開源了Text Seal工具包。該工具包專注於為大語言模型(LLM)提供生成時與事後兩種文本水印方案,並可檢測因基準數據被污染所產生的“水印放射性”信號。
具體而言,Text Seal是Meta Seal多模態開源水印框架的一部分,旨在提供穩健且不易察覺的水印方案。
Text Seal的功能包括:實施事後水印,即利用LLM對現有文本進行重寫,同時使用生成時水印方案(如Green-list/Red-list、Gumbel-max、DipMark、SynthID、MorphMark、WaterMax)嵌入水印;進行污染檢測,通過在訓練過程中注入帶水印的基準數據集,並檢測模型輸出的“水印放射性”,從而推斷訓練數據是否受到污染;提供訓練基礎設施,支持為研究目的進行帶污染注入的分佈式預訓練和SFT。
開源地址:https://github.com/facebookresearch/textseal