芯片巨頭英偉達(NVIDIA)在人工智能浪潮中成為最大受益者之一,其用於 AI 訓練的芯片和數據中心服務需求暴漲,同時還自行開發多種大模型,包括 NeMo、Retro‑48B、InstructRetro 和 Megatron,並依靠海量文本數據進行訓練。然而,這一過程也招致版權方日益激烈的法律反擊,多名作家指控該公司大規模使用盜版圖書訓練模型,並在美國提起集體訴訟。
早在 2024 年初,多位作者就已在集體訴訟中指控英偉達使用包含大量受版權保護作品的 Books3 數據集進行訓練,稱其中作品來源於盜版電子書站點 Bibliotik,且未獲授權,因而要求賠償損失。英偉達方面則辯稱,其模型中“書籍不過是統計相關性”,試圖以“合理使用”為抗辯理由,但隨着證據開示推進,原告聲稱掌握了更多內部材料。
最新提交的一份修正起訴書大幅擴展了訴訟範圍,除了新增更多作品、作者與模型外,還引入了更廣泛的“影子圖書館”相關指控。包括 Abdi Nazemian 在內的多名作者在文件中引用英偉達內部郵件和文件,稱該公司在競爭壓力下“被驅趕向盜版”,主動從多個盜版數據源獲取圖書,其中包括備受爭議的 Anna’s Archive。
起訴書聲稱,英偉達數據戰略團隊的一名成員曾主動聯繫 Anna’s Archive,詢問這家“影子圖書館”能為這家市值數萬億美元的公司提供什麼,並明確提到希望將 Anna’s Archive 納入其大語言模型(LLM)的預訓練數據。由於 Anna’s Archive 為“高速訪問”其盜版資源收取數萬美元費用,英偉達據稱還專門打聽如何獲得這種高速訪問形式。
據指控,Anna’s Archive 隨後明確提醒英偉達,其館藏是通過非法方式獲取並維持的,並表示此前已被其他 AI 公司“白白浪費過時間”,因此要求英偉達方面確認是否獲得內部授權方可推進談判。起訴書稱,在得到這一警告僅幾天後,英偉達管理層即在一週內給出了“綠燈”,同意繼續推進,並獲得了對 Anna’s Archive 大量盜版書籍的訪問權。
文件指出,Anna’s Archive 承諾向英偉達開放約 500 TB 的數據,其中包括數百萬本通常只能通過 Internet Archive 數字借閲系統訪問的圖書,而後者自身也正捲入與出版商之間的版權訴訟。起訴書未明確披露英偉達是否最終向 Anna’s Archive 支付費用,但同時指稱,英偉達還被控使用了 Books3 以外的其他盜版來源,例如 LibGen、Sci‑Hub 和 Z‑Library 等網站。
除了為自家模型下載並使用盜版圖書,英偉達還被指向企業客户分發腳本和工具,使其可以自動下載包含 Books3 數據集的“The Pile”數據集。原告據此提出新的“替代侵權”“共同侵權”等指控,稱英偉達一方面通過內部訓練使用盜版數據獲益,另一方面又通過幫助客户獲取這些數據間接受益,從而從侵權行為中獲得收入。
基於上述指控,作者們要求法院判令英偉達就其遭受的損失進行賠償,既包括已具名的作者,也包括未來可能加入集體訴訟的眾多作者。這也是首次有文件公開披露大型美國科技公司與 Anna’s Archive 之間的直接接觸記錄,輿論認為,這一披露很可能進一步抬高這家剛剛因法院命令而丟失多個域名的盜版圖書館在公眾視野中的曝光度。
相關修正後的合併起訴書已提交至美國加州北區聯邦地區法院,文件中列出的具名作者包括 Abdi Nazemian、Brian Keene、Stewart O’Nan、Andre Dubus III 和 Susan Orlean 等。案件的進展不僅將進一步檢驗 AI 訓練與版權法之間的界限,也可能對整個行業使用“影子圖書館”數據的合規風險產生示範效應。