這幾年大家都在搞AI,模型越來越大、算力越來越猛,效果也越來越好。不過越是這樣,越容易讓大家忽略一個問題:安全!你花費大價錢訓練出來的模型,可不想被別人白嫖、逆向、偷走權重,更不想在客户現場被人輕輕鬆鬆dump出來吧
所以今天就來説説:AI模型的數據安全,到底應該怎麼做
模型和數據為什麼要保護?
以前我們所瞭解的軟件安全是防盜版、代碼加殼等。現在模型上位了,新的麻煩也一起來了,由於大家都缺少這方面的經驗,導致往往出現了很大的安全漏洞但卻並未意識到,那麼模型和數據為什麼要保護呢?主要有以下幾個方面
訓練成本高,偷你模型比訓練還快
別人訓練模型可能要幾百萬的成本,黑客要是拿到你的模型,嘿,就是直接用,不花錢
逆向太容易了
模型文件本質上還是一堆結構化的數據,只要有人願意分析,就能還原結構、參數、流程,甚至推斷你的業務邏輯
數據泄露傷害更大
特別是你用別人敏感數據訓練的模型,一旦泄露,那不只是損失了,是事故
模型被篡改
你以為的模型回答很正常,但別人偷偷塞進後門,你可能永遠也發現不了
亂用
別人在你這裏花錢購買了一份模型,但是卻部署在了整個公司,甚至是子公司,花費一份的錢用了幾百份
分發
別人可能確實是花錢購買了模型,但是可能無意間對其公開了,大家可以自由下載使用,想想就顫抖吧
模型保護啥
保護推理代碼(推理框架、自研邏輯)
避免別人逆向你的推理流程、業務邏輯等等
保護模型權重(參數文件)
這是模型的靈魂,有的人甚至權重比代碼值錢多了
保護數據與使用權限(授權體系)
- 權重文件只能在授權範圍內使用
- 限制部署次數、機器綁定
- 限制模型版本
- 限制使用時間
- 限制用户身份
大部分時候,這三部分不是分開的,而是結合在一起保護的
該如何進行保護呢
自研
我們的第一反應可能就是自研,通過加密等手段實現一大堆的邏輯來實現我們預期的功能,但是這種方式往往有很大的問題存在,黑客的技術往往比想象的厲害的多,最後花費了大量資源後發現一直在補窟窿,到最後不僅成本遠超了預期,還達不到預期的效果, 依舊是漏洞百出
成熟產品
北京深盾科技有限公司在軟件安全與授權方面鑽研了二十多年,打造了完善的許可體系和軟件安全體系,我們僅需花費少量的成本,就可以快速完成集成,把我們的精力全方位地投入到產品上,不再為軟件安全而擔心