博客 / 詳情

返回

詳解大模型安全評估實操流程

image

image

當前,生成式人工智能大模型快速普及,其安全可控性直接關係國家安全、社會公共利益及公民合法權益。根據國家互聯網信息辦公室等七部門聯合發佈的《生成式人工智能服務管理暫行辦法》(國家互聯網信息辦公室令第15號)第十七條明確要求,“提供具有輿論屬性或者社會動員能力的生成式人工智能服務的,應當按照國家有關規定開展安全評估,並按照《互聯網信息服務算法推薦管理規定》履行算法備案和變更、註銷備案手續”。對於需完成網信辦備案的企業及相關工作人員而言,規範開展大模型安全評估是備案通過的核心前提,也是履行合規義務的關鍵環節。本文結合現行政策要求、行業實操標準及權威案例,詳細拆解大模型安全評估的全流程、核心要點及注意事項,搭配真實有效引用,助力備案相關人員快速掌握評估方法、規避備案風險。

一、大模型安全評估的政策基石——明確備案評估的合規邊界

大模型安全評估並非獨立流程,而是緊密圍繞網信辦備案要求,以國家相關法律法規、部門規章及行業標準為核心依據,形成“政策引領、標準支撐、實操落地”的完整體系。備案相關人員需先明確評估的政策邊界,確保評估工作合法合規、貼合監管要求。

(一)核心政策依據(必備引用,備案審核重點核查)

  1. 《生成式人工智能服務管理暫行辦法》(2023年8月15日施行):作為大模型備案及安全評估的綱領性文件,明確了評估的適用範圍、核心要求及責任主體。其中第七條、第八條、第十四條分別對訓練數據安全、數據標註規範、生成內容管控作出具體規定,要求“使用具有合法來源的數據和基礎模型”“採取有效措施提高訓練數據質量”“發現違法內容的,應當及時採取停止生成、停止傳輸、消除等處置措施”,這些均為安全評估的核心核查要點。

  2. 《生成式人工智能服務安全基本要求》(GB/T 41819-2022):該國家標準明確了生成式人工智能服務的安全要求,涵蓋訓練數據安全、模型安全、生成內容安全、隱私保護、供應鏈安全等5大維度,是安全評估的具體操作準則。其中明確要求“防範模型被用於編寫惡意軟件、製造生物武器等風險”,同時對語料抽檢合格率、敏感問題拒答率等給出量化指標,是備案評估中技術核查的核心依據。

  3. 《網絡安全法》《數據安全法》《個人信息保護法》:三者共同構成大模型安全評估的底層法律框架。《網絡安全法》明確網絡運營者的安全保護義務,《數據安全法》要求開展數據處理活動應當符合數據安全國家標準,《個人信息保護法》則對訓練數據中涉及的個人信息處理、匿名化處理作出嚴格規定,三者均為安全評估中“合規性核查”的必查內容,也是備案材料中需重點佐證的合規依據。

  4. 國際參考標準:世界數字技術院(WDTA)發佈的《生成式人工智能應用安全測試標準》《大語言模型安全測試方法》兩項國際標準,雖非我國備案評估的強制性依據,但其中提出的“安全風險分類、攻擊分類分級方法、測試程序”等內容,可作為我國備案評估的補充參考,尤其適用於涉及跨境服務、外資背景的大模型備案評估,有助於提升評估的全面性和嚴謹性。

(二)評估與備案的核心關聯

根據網信辦備案的監管邏輯,大模型安全評估是備案的“前置條件”——未完成安全評估或評估不合格的,無法提交備案申請;評估合格後,需將評估報告作為核心材料提交至屬地網信辦,納入備案審核範圍。同時,《生成式人工智能服務管理暫行辦法》第十九條明確規定,“有關主管部門依據職責對生成式人工智能服務開展監督檢查,提供者應當依法予以配合,按要求對訓練數據來源、規模、類型、標註規則、算法機制機理等予以説明,並提供必要的技術、數據等支持和協助”,這意味着安全評估結果不僅是備案通過的關鍵,也是後續監管檢查的重要依據。

需特別注意:備案實行分類分級管理,高風險場景(涉及新聞出版、影視製作等領域的模型)需同步滿足行業專項規定,其安全評估標準更為嚴格;低風險場景(企業內部使用的非公眾服務)可豁免備案,無需開展對應安全評估。

二、大模型安全評估全流程實操——適配網信辦備案的步驟拆解

結合網信辦備案的審核流程(前期準備-屬地申報-技術評審-國家複審-公示生效),大模型安全評估需同步推進,形成“自查-檢測-整改-出具報告”的閉環流程,全程需留存完整記錄,作為備案材料的核心支撐。整個評估流程建議與備案前期準備同步啓動,確保評估結果可直接用於備案申報,縮短備案週期(備案全流程通常需3-6個月,評估流程建議控制在1-2個月)。

第一步:前期籌備——明確評估範圍與梳理核心材料

備案相關人員需先明確評估範圍,避免遺漏備案審核重點,同時梳理評估所需的核心材料,為評估工作奠定基礎。

  1. 明確評估範圍:結合《生成式人工智能服務管理暫行辦法》第二條規定,評估範圍需覆蓋“向中華人民共和國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務”,具體包括:訓練數據(來源、標註、清洗等)、模型本身(架構、訓練框架、優化過程等)、生成內容(合規性、準確性、安全性等)、隱私保護(用户數據收集、存儲、使用等)、供應鏈安全(外採軟件/硬件、開源協議等)、應急響應機制(數據泄露、有害內容傳播等場景的處置流程)六大核心模塊。

  2. 特殊場景補充:多模態產品(同時具備文生文、文生圖功能)需分別開展評估,提交兩份評估測試題集;外資背景企業需額外評估境外語料安全,提供境外語料安全承諾書(需公證處認證);涉及跨境數據流動的,需同步評估數據出境安全,提交《數據出境安全評估報告》。

  3. 梳理核心材料:包括模型研發説明(架構圖、訓練框架、算力資源清單等)、訓練數據證明(來源授權文件、採集協議、清洗記錄等)、數據標註規範及質量評估報告、用户服務協議及隱私政策、應急響應預案、開源組件合規證明、第三方檢測機構資質文件(如委託第三方檢測)等,這些材料既是評估的依據,也是後續備案需提交的核心材料。

第二步:自主評估【如不做自評估,也可以選擇下面的第三方評估】——對照標準開展全面自查(備案前期準備核心環節)

自主評估是安全評估的基礎,也是備案審核中“安全自評估報告”的核心來源,需由企業組建“法務+技術+運營”跨部門合規團隊,對照核心標準開展全面自查,確保無合規漏洞。自查過程需留存完整記錄,形成《安全自評估報告》,作為備案核心材料之一。

自查核心要點(貼合備案審核重點,附量化標準):

  1. 訓練數據安全自查(依據《生成式人工智能服務安全基本要求》):① 來源合規:自採數據需提供《網絡數據採集授權書》,商業語料需提供採購合同,開源語料需提供合規授權文件,嚴禁使用未授權爬取的網頁數據;② 質量達標:人工抽檢語料,合格率需≥96%;技術篩查10%語料,合格率≥98%;③ 標註規範:制定清晰的標註規則,對標註人員進行培訓,抽樣核驗標註內容準確性,杜絕低俗、歧視性標註內容;④ 境外語料管控:境外語料佔比不得超過30%,需提供境外語料安全承諾書。

  2. 模型安全自查(依據《大語言模型安全測試方法》):

    1. ① 敏感問題攔截:對敏感問題進行測試,拒答率需≥95%;非拒答測試拒答率≤5%;

    2. ② 架構安全:披露模型架構、訓練框架等技術細節,確保架構合理、算力資源可追溯(自研算力需提供設備清單);

    3. ③ 優化過程合規:模型優化過程需留存完整記錄,嚴禁通過違規訓練優化模型生成有害內容[2]。

  3. 生成內容安全自查(依據《生成式人工智能服務管理暫行辦法》第四條):

    1. ① 合規性:生成內容不得包含煽動顛覆國家政權、宣揚恐怖主義、民族歧視、暴力色情等法律禁止內容;

    2. ② 準確性:避免生成虛假信息,尤其是新聞、醫療、金融等專業領域,需確保內容準確可靠;

    3. ③ 標註規範:按照《互聯網信息服務深度合成管理規定》對圖片、視頻等生成內容進行標識;

    4. ④ 人工複核:生成內容人工複核比例不低於10%,留存複核記錄,整改不合格內容[4]。

  4. 隱私保護自查(依據《個人信息保護法》及GB/T 35273《個人信息安全規範》):

    1. ① 數據收集:不得收集非必要個人信息,收集個人信息需取得用户同意;

      ② 數據存儲:用户數據需匿名化處理,存儲符合安全標準,嚴禁非法留存能夠識別使用者身份的輸入信息和使用記錄;

      ③ 數據使用:明確用户輸入數據的使用範圍及授權期限,提供關閉授權、刪除數據的路徑,不得非法向他人提供用户數據;

      ④ 投訴處理:建立個人信息相關投訴、舉報機制,及時受理、處理用户關於查閲、複製、刪除個人信息的請求[3]。

  5. 供應鏈與應急響應自查:

    1. ① 供應鏈安全:外採軟件/硬件需提供安全審查報告,開源組件需核查開源協議合規性,避免知識產權侵權;② 應急響應:制定完善的應急響應預案,涵蓋數據泄露、有害內容傳播、模型故障等場景,明確處置流程、責任分工,開展模擬演練並留存記錄,確保應急響應機制有效。

第三步:第三方檢測【可選,也可根據第二步做自評估】——強化評估公信力(備案技術評審重點)

根據網信辦備案審核要求,自主評估完成後,建議委託具備相關資質的第三方檢測機構開展檢測(部分地區備案要求必須提供第三方檢測報告),第三方檢測報告是備案技術評審環節的核心佐證材料,可提升評估結果的公信力。

  1. 第三方機構選擇標準:需具備《檢驗檢測機構資質認定證書》(CMA),且檢測範圍涵蓋生成式人工智能安全檢測,優先選擇參與過國家大模型安全評估、備案檢測的機構(如中國電子技術標準化研究院、中國信通院、螞蟻安全實驗室等)。

  2. 檢測核心內容:第三方檢測需圍繞自主評估的六大模塊,採用“技術檢測+人工核查”相結合的方式,重點檢測自主評估中未覆蓋的細節的合規性、量化指標的達標情況,以及模型的抗攻擊能力(按照《大語言模型安全測試方法》提出的四種攻擊強度分類標準開展測試)。

  3. 檢測報告要求:檢測報告需明確檢測依據、檢測方法、檢測結果、整改建議(如有),加蓋檢測機構公章,明確檢測日期,檢測結果需明確“合格”“不合格”“限期整改後合格”,不合格項需明確整改要求及整改期限,整改完成後需重新檢測,確保檢測結果合格,方可用於備案申報。

第四步:問題整改——閉環優化,確保符合備案要求

針對自主評估或第三方檢測中發現的問題,需建立整改台賬,明確整改責任人、整改措施、整改期限,形成“發現問題-整改落實-複核驗證”的閉環,整改完成後留存完整的整改記錄,作為備案材料的補充支撐,避免因整改不到位導致備案駁回。

常見問題及整改方向(結合備案駁回常見原因):

  1. 語料問題:未建立知識產權投訴渠道、開源語料授權文件缺失——補充完善知識產權投訴處理流程,獲取開源語料合規授權文件,重新抽檢語料確保達標;

  2. 測試缺陷:測試題集未覆蓋《生成式人工智能服務安全基本要求》附錄A的全部31類風險——補充測試題集,確保每類風險至少200條測試題,覆蓋日常對話、專業領域問答、敏感問題誘導等多場景;

  3. 協議漏洞:服務協議未明確用户數據刪除權、未設置未成年人保護條款——修訂服務協議,補充用户數據刪除、未成年人保護相關條款,明確雙方權利義務;

  4. 生成內容問題:存在虛假信息、敏感內容——優化模型訓練語料,完善關鍵詞攔截機制(攔截關鍵詞庫≥10000),提升人工複核比例,整改後重新開展檢測[4]。

注意:備案審核中,未通過的企業需在屬地網信辦規定的時間內完成整改並重新提交,不要逾期,因此評估階段的整改工作需高效推進,避免影響備案進度。

第五步:出具報告——規範編制,適配備案材料要求

安全評估完成後,需編制《大模型安全評估報告》,該報告是網信辦備案的核心材料之一,需規範編制、內容完整,明確體現評估全過程及評估結果,確保備案審核人員可清晰核查評估的合規性、全面性。

報告核心內容(必備模塊,缺一不可):

  1. 評估概況:明確評估對象(大模型名稱、版本、研發單位等)、評估範圍、評估依據(列明本文第一部分提及的核心政策、標準)、評估時間、評估團隊(自主評估團隊、第三方檢測機構);

  2. 評估過程:詳細描述自主評估、第三方檢測的流程、方法、核查內容,留存自查記錄、檢測原始數據、模擬演練記錄等附件;

  3. 評估結果:明確評估結論(合格/整改後合格),量化呈現各項指標達標情況(如語料合格率、敏感問題拒答率等),列明未發現的問題、發現的問題及整改完成情況;

  4. 合規承諾:明確承諾大模型符合國家相關法律法規、部門規章及行業標準,評估結果真實有效,願意接受網信辦及相關主管部門的監督檢查,如存在違規行為,自願承擔相應法律責任;

  5. 附件材料:包括第三方檢測報告、訓練數據來源證明、數據標註規範、應急響應預案、服務協議及隱私政策、整改記錄等,附件需加蓋企業公章,確保真實有效[3]。

三、備案審核中評估報告的重點核查要點——規避駁回風險

網信辦備案審核(屬地初審、技術評審、國家複審)中,對安全評估報告及評估相關材料的核查極為嚴格,備案相關人員需重點關注以下核查要點,提前規避駁回風險,結合典型反面案例吸取經驗教訓。

(一)屬地初審核查要點(形式+合規預審)

屬地網信辦主要開展形式審核和合規預審,重點核查:

① 評估報告格式規範性、內容完整性,附件材料齊全(如掃描件不可錯位、加蓋公章);

② 評估依據的合規性,是否涵蓋核心政策、標準;

③ 境外語料佔比(不得超過30%)、開源協議合規性,外資企業是否提供境外語料安全承諾書(公證處認證);

④ 多模態產品是否提交兩份評估測試題集。

(二)技術評審核查要點(專家評估核心)

專家評審環節,重點核查評估的真實性、全面性及技術合規性,核心要點包括:

① 訓練數據的合法性、質量達標情況,是否留存完整的採集、清洗、標註記錄;

② 模型安全管控能力,敏感問題攔截、有害內容過濾的有效性,模型架構及優化過程的可追溯性;

③ 生成內容的合規性、準確性,人工複核機制的有效性;

④ 隱私保護措施的落地情況,用户數據處理是否符合相關法律規定;

⑤ 應急響應機制的可行性,模擬演練記錄是否完整;

⑥ 第三方檢測機構的資質,檢測方法、檢測結果的合理性。

(三)國家複審核查要點(跨部門聯審)

網信辦聯合公安、工信等部門開展綜合複審,重點核查:

① 供應鏈安全,外採軟件/硬件的安全審查報告,開源組件的知識產權合規性;

② 知識產權,訓練語料的版權證明、基礎模型的授權文件;

③ 特殊場景合規性,涉及跨境數據流動的,需核查《數據出境安全評估報告》;涉及新聞出版、醫療、金融等特殊領域的,需核查行業專項合規證明;

④ 評估整改的有效性,前期發現的問題是否徹底整改,整改記錄是否完整。

四、評估工作的注意事項——助力備案高效通過

  1. 真實性是核心:評估過程、評估結果、附件材料必須真實有效,嚴禁偽造檢測報告、自查記錄、授權文件等,網信辦備案審核中會對材料的真實性進行核查,一旦發現偽造,將直接駁回備案申請,並記入企業信用檔案,影響後續備案及業務開展[4]。

  2. 同步推進評估與備案:安全評估工作需與備案前期準備、材料梳理同步啓動,避免評估完成後再補充備案材料,縮短備案週期;評估報告的編制需貼合備案材料要求,確保內容可直接用於備案申報,減少材料修改工作量。

  3. 強化持續合規:大模型安全評估並非一次性工作,備案通過後,仍需持續開展安全評估,因為大模型的訓練數據、優化過程、應用場景可能發生變化,需及時排查新增風險。同時,根據《生成式人工智能服務管理暫行辦法》第十四條要求,發現違法內容或違規行為的,需及時整改並向主管部門報告,確保持續符合備案要求及安全標準,避免備案被註銷或面臨處罰。

  4. 藉助行業資源提升評估質量:可加入中國人工智能產業發展聯盟等行業組織,獲取政策解讀、技術支持及評估經驗;參考螞蟻集團、百度、騰訊等企業的大模型安全治理實踐,其相關經驗被納入國際標準,可助力提升評估的規範性和全面性。

五、總結

大模型安全評估是網信辦備案的核心前提,也是企業履行合規義務、防範安全風險的關鍵舉措。對於備案相關人員而言,需牢牢把握“政策引領、標準支撐、實操落地、真實合規”的核心原則,明確評估的政策依據、全流程實操步驟,重點關注訓練數據安全、模型安全、生成內容安全、隱私保護等核心模塊,規範編制評估報告、留存完整評估記錄,同時關注地方差異化要求、借鑑典型案例經驗,規避備案駁回風險。

當前,我國大模型監管體系逐步完善,備案制度已形成“事前准入+事中監管+事後追溯”的全鏈條治理體系,安全評估的規範性、全面性直接關係備案效率及企業後續合規運營。隨着《生成式人工智能應用安全測試標準》《大語言模型安全測試方法》等國際標準的落地,以及我國相關政策、標準的持續優化,大模型安全評估的標準將更加精細化、規範化。備案相關人員需持續學習最新政策、標準,提升評估實操能力,確保大模型安全評估工作貼合監管要求,助力備案高效通過,推動大模型在安全、合規的前提下創新發展。
image

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.