博客 / 詳情

返回

為千行百業植入“安全基因”!百度加入“內生安全生態夥伴計劃”

11月28日,由紫金山實驗室主辦的第五屆網絡空間內生安全學術大會暨IEEE CRESS 2025國際會議在南京啓幕。大會由中國通信學會、中國計算機學會、中國汽車工程學會、中國網絡空間安全學會指導,紫金山實驗室主辦,以“AI+生態構建新挑戰,安全可信新機遇”為主題,集中展現我國在網絡空間內生安全領域的原創突破與產業實踐成果。同時,大會正式啓動“內生安全生態夥伴計劃”,該計劃聯合了百度、奇安信、深信服等行業領軍企業開展深度合作,形成共生共存的產業生態鏈條,以加速技術創新與成果轉化,讓內生安全技術更好地賦能千行百業。

image.png
第五屆網絡空間內生安全學術大會

大模型技術的深度應用在釋放生產力的同時,也潛藏着多重安全隱患。一旦保護不到位,可能導致用户隱私泄露,甚至被用於詐騙、盜用身份等違法犯罪活動。技術開發過程中,若核心數據或算法被竊取,不僅損害企業利益,還可能被不法分子篡改功能,導致模型輸出錯誤結果,影響醫療、金融等關鍵領域。這些風險不僅威脅企業及個人權益,還可能破壞社會信任,甚至影響國家安全。因此,需要通過加強數據保護、完善技術架構、制定行業規範等多方面措施,以確保大模型在安全可控的前提下發揮作用。為此,百度提出了大模型安全護欄建設理念,為行業提供了一套系統性的內生安全解決方案,構建功能完備、服務全面的大模型安全護欄產品矩陣,針對大模型場景存在的各類風險,提供一站式的大模型輸入、輸出安全護欄產品。

image.png
內生安全生態夥伴計劃

具體而言,百度大模型安全護欄構建了從雲端到邊緣側的立體化防禦體系。在雲端,系統對文本實施輸入輸出的全鏈路管控,依託高精度“紅線知識庫”與基於權威信源的“信任域RAG”,實現了對敏感問題的精準應答與正向引導,有效避免模型幻覺並符合社會價值觀;針對多模態與高級攻擊,採用剪枝優化的統一大模型審核方案,在圖文融合場景下表現優異,並能通過語義意圖與固定模式檢測精準識別角色扮演等隱蔽攻擊。在端側,適應端雲協同趨勢並滿足GB/T 45654標準,系統部署了離線安全審核算子,在節省底座模型算力的同時確保離線治理能力,支持用户封禁及敏感詞幹預,實現了對突發風險的快速響應。

image.png
AI安全架構

與此同時,百度將大模型安全評測體系視為保障安全的“生命線”。該體系由海量高質量評測數據集與全流程自動化評測系統構成,不僅全面覆蓋通用場景及垂直領域智能體,更能持續吸納時下最新的風險事件與對抗性樣本,保持題庫的鮮活性與高對抗性。針對傳統人工評測成本高、標準不一的痛點,該體系的核心創新在於引入了微調後的“裁判大模型”進行自動化標註,其準確率已高達95%以上,顯著優於人工水平。通過對待測模型的例行化訪問與深度評估,系統能快速生成精準報告,為合作伙伴提供科學、高效的安全水位評估,確立模型上線前的最後一道安全防線。

image.png
大模型安全評測框架

百度的創新實踐不僅體現在技術層面,更重要的是我們始終堅持將安全理念融入大模型全生命週期。從數據清洗、安全對齊、內生安全到大模型安全運營,我們構建了一套完整的原生安全體系。特別在跨模態安全治理方面,我們通過視覺理解與文本語義的雙重審核,引入區域關注、跨模態對齊等機制,有效提升了對複合內容的風險管控能力。未來,我們將繼續攜手行業合作伙伴,以技術創新推動大模型安全的健康發展。我們將在大模型安全領域持續投入,為各行各業提供更加專業、可靠的安全服務,助力人工智能產業的可持續發展,為構建更加安全可信的AI應用環境貢獻力量。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.