Adobe 被訴用盜版書籍訓練 AI 模型,SlimLM 陷版權風波

新聞
HongKong
3
04:22 PM · Dec 18 ,2025

俄勒岡州作家伊麗莎白·萊昂(Elizabeth Lyon)對Adobe提起集體訴訟,指控其在訓練名為 SlimLM 的小型語言模型時,使用了包含其盜版作品在內的非法數據集。

SlimLM是Adobe推出的一系列輕量化語言模型,專為移動設備上的文檔輔助任務(如摘要、改寫、問答)優化。Adobe官方稱,該模型基於 SlimPajama-627B 數據集進行預訓練——這是由AI芯片公司Cerebras於 2023 年 6 月發佈的開源、去重、多來源語料庫。

然而,萊昂的訴狀指出,SlimPajama實際上是 RedPajama 數據集的衍生版本,而RedPajama又直接複製了臭名昭著的 Books3 數據集。Books3 包含約19. 1 萬本受版權保護的圖書,長期被指大量收錄自網絡盜版資源(如The Bibliotik)。

訴狀強調:“SlimPajama因系RedPajama的衍生複製,故包含Books3 中的內容,其中包括原告及集體成員的受版權保護作品。”

萊昂本人是多本非虛構寫作指南的作者,其作品據稱就在被非法用於訓練的數據之列。她指控Adobe在未獲授權、未署名、未支付任何費用的情況下,將其文字用於商業AI產品的開發,侵犯了版權法賦予作者的專有權利。

這並非孤立事件。Books3 和RedPajama已成為AI行業版權訴訟的“高頻詞”:

  • 2024 年 9 月,Apple被訴使用Books3 訓練其Apple Intelligence;
  • 同月,Anthropic就類似指控與作家羣體達成 15 億美元和解,被視為AI版權案的里程碑;
  • 10 月,Salesforce也被指依賴RedPajama訓練其AI系統。
user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.