博客 / 詳情

返回

隱語——數據要素流通技術MOOC三期 課程筆記——密態大模型課程筆記

學習課程:https://www.secretflow.org.cn/community/bootcamp/2narwgw4ub8r...

主講人:螞蟻密算 周愛輝
課程核心:密態大模型的技術原理、應用價值及實操搭建

一、問題定義:AI時代大模型的核心痛點

1. 產業應用現狀

AI時代下,大模型正走向產業深度應用,但對高質量、專業化數據的需求日益迫切,而行業大模型構建面臨多重瓶頸。

2. 核心痛點拆解

  • 數據與模型供需錯配:部分主體擁有高質量數據,但缺乏大模型構建能力;
  • 數據安全焦慮:數據/模型提供方擔心專業數據泄露,不敢信任外部機構使用;
  • 查詢內容(Query)安全風險:模型使用方面臨Query中個人隱私、商業機密的泄露問題;
  • 瓶頸影響:上述安全問題阻礙大模型產業落地,亟需解決方案。

3. 蜜台大模型的解決方向

通過密態(MITI)大模型,解決數據、模型及Query的安全問題,最終實現高價值數據的安全交互與應用。

二、密態大模型核心原理:基於機密計算的安全保障

1. 基礎支撐:機密計算(Confidential Computing)

(1)核心定義

聚焦“數據使用中(In-use)安全”——數據生命週期分為“存儲(At rest)、傳輸(In transit)、使用(In use)”三環節,機密計算專門保障“使用中”的內存數據安全。

(2)技術核心:可信執行環境(TEE)

  • 本質:隔離的安全環境,僅允許授權代碼執行,外部無法讀取或篡改TEE內數據;
  • 關鍵概念:Enclave(飛地)——TEE的具體實例,為特定代碼和數據提供隔離保護;
  • 威脅模型:雲環境中,雲廠商及其他角色無法獲取TEE內的代碼和數據;
  • 三大核心特性

    隔離性:與非可信執行環境(RE)強隔離,攻擊面小,安全性不依賴RE;
    
  • 加密性:TEE硬件提供內存加密能力,防止RE環境讀取/修改TEE內存;
  • 遠程證明:TEE硬件作為信任根,生成可驗證的環境報告,確保運行環境真實可信。

2. 密態大模型的安全流轉邏輯

核心目標:實現“數據可用不可見”,覆蓋大模型“推理”和“後訓練”全流程。

(1)大模型推理流程(Query安全保護)

  1. 模型部署:模型持有者加密模型並上傳至雲端,雲端將模型加載至TEE內,啓動推理服務並對外提供API;
  2. 遠程認證:用户端(API/SDK/瀏覽器)向推理服務發起認證請求,TEE生成帶硬件簽名的認證報告(含硬件、固件等信息),經可信根機構驗證後,用户確認環境可信;
  3. 加密交互:用户端用推理服務公鑰加密“數據密鑰”,再用數據密鑰加密Query內容,密文傳輸至TEE;
  4. 推理與反饋:TEE內用私鑰解密數據密鑰,再解密Query並執行推理,推理結果用數據密鑰加密後返回,用户端最終解密獲取明文結果。

(2)大模型後訓練流程(數據與模型雙保護)

  1. 參與方與準備:模型持有者、數據持有者分別加密模型/數據,上傳至雲端;
  2. 密鑰與策略管理:密態數據協同管理器(跑在TEE內)託管加密密鑰,同時管理授權策略(如“數據僅用於後訓練”);
  3. 權限校驗與密鑰下發:後訓練應用(跑在TEE內)請求密鑰時,管理器校驗其是否符合授權策略,通過後加密下發密鑰;
  4. 安全訓練:應用用密鑰解密模型/數據,在TEE內完成SFT(有監督微調)、強化學習等後訓練及評測,全程數據不泄露。

3. 典型應用案例

(1)MOTOP7 IM的AI應用安全

  • 痛點:IM的B端客户有大模型使用需求,但核心數據(私聊消息、文檔等)不敢直接交予第三方模型;
  • 方案:基於蜜台大模型實現“Query-推理服務-輸出”全鏈路加密,輸入輸出均為密文;
  • 價值:保護企業商業機密與用户隱私,推動AI應用在IM場景落地。

(2)密態大模型知識庫

  • 痛點:企業/個人有私域知識庫(含商業機密),但不敢直接使用外部雲大模型,自建成本高;
  • 方案:端側知識庫檢索結果+用户Query加密後送入雲大模型,模型輸出加密返回;
  • 價值:無需自建大模型,即可安全使用雲服務,提升答案可靠性與業務效率,助力垂直領域大模型訓練。

三、實操:從零搭建密態大模型推理服務

1. 核心依賴:TrustFlow框架

  • 定位:螞蟻密算開源的TEE計算框架,提供機密計算透明化框架(CCTF),支持應用無縫遷移至TEE環境;
  • 核心能力:遠程認證代理、數據安全管控、支持機器學習/深度學習/大模型等場景;
  • 開源地址:課程提及的地址可自行訪問獲取。

2. 環境準備

類別 具體要求
硬件 X86服務器(推薦配備英偉達GPU);非X86架構參考VRM官網説明
網絡 可訪問外網(用於獲取模型資源)
軟件 Python ≥ 3.10;Docker ≥ 19.03
説明:無需強制準備TEE硬件(普及度有限),普通機器可實現仿真部署,原理完全一致。

3. 部署步驟(基於Docker)

  1. 克隆代碼倉庫:執行git clone [TrustFlow開源地址]
  2. 進入實例目錄:切換至課程指定的實例代碼目錄;
  3. 啓動服務:執行docker-compose up,出現指定日誌即表示服務啓動成功。

4. 服務驗證

  1. 安裝依賴:執行pip install [必要依賴]
  2. 調用推理服務:執行python JWClient.py(腳本含默認查詢“你好”);
  3. 驗證結果:成功接收模型明文回覆(如“你好,有什麼可以幫助你嗎”),即表示部署生效。

5. 核心機制説明

部署架構含3個容器,體現CCTF框架的透明化優勢:

  • Sidecar容器:提供遠程認證代理等能力;
  • Envoy容器:負責通信轉發;
  • 核心原理:密態大模型基於機密計算(TEE),實現大模型推理、後訓練全流程的“數據、模型、Query”安全保護,核心是“可用不可見”;

實操價值:基於TrustFlow的CCTF框架,可零基礎快速搭建密態大模型推理服務,降低安全大模型的落地門檻;

  1. 核心原理:蜜台大模型基於機密計算(TEE),實現大模型推理、後訓練全流程的“數據、模型、Query”安全保護,核心是“可用不可見”;
  2. 實操價值:基於TrustFlow的CCTF框架,可零基礎快速搭建蜜台大模型推理服務,降低安全大模型的落地門檻;
  3. 產業意義:解決大模型產業應用的安全瓶頸,推動企業/個人敢用、能用私域數據,助力垂直領域專業大模型的構建。
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.