學習課程:https://www.secretflow.org.cn/community/bootcamp/2narwgw4ub8r...
主講人:螞蟻密算 周愛輝
課程核心:密態大模型的技術原理、應用價值及實操搭建
一、問題定義:AI時代大模型的核心痛點
1. 產業應用現狀
AI時代下,大模型正走向產業深度應用,但對高質量、專業化數據的需求日益迫切,而行業大模型構建面臨多重瓶頸。
2. 核心痛點拆解
- 數據與模型供需錯配:部分主體擁有高質量數據,但缺乏大模型構建能力;
- 數據安全焦慮:數據/模型提供方擔心專業數據泄露,不敢信任外部機構使用;
- 查詢內容(Query)安全風險:模型使用方面臨Query中個人隱私、商業機密的泄露問題;
- 瓶頸影響:上述安全問題阻礙大模型產業落地,亟需解決方案。
3. 蜜台大模型的解決方向
通過密態(MITI)大模型,解決數據、模型及Query的安全問題,最終實現高價值數據的安全交互與應用。
二、密態大模型核心原理:基於機密計算的安全保障
1. 基礎支撐:機密計算(Confidential Computing)
(1)核心定義
聚焦“數據使用中(In-use)安全”——數據生命週期分為“存儲(At rest)、傳輸(In transit)、使用(In use)”三環節,機密計算專門保障“使用中”的內存數據安全。
(2)技術核心:可信執行環境(TEE)
- 本質:隔離的安全環境,僅允許授權代碼執行,外部無法讀取或篡改TEE內數據;
- 關鍵概念:Enclave(飛地)——TEE的具體實例,為特定代碼和數據提供隔離保護;
- 威脅模型:雲環境中,雲廠商及其他角色無法獲取TEE內的代碼和數據;
-
三大核心特性:
隔離性:與非可信執行環境(RE)強隔離,攻擊面小,安全性不依賴RE; - 加密性:TEE硬件提供內存加密能力,防止RE環境讀取/修改TEE內存;
- 遠程證明:TEE硬件作為信任根,生成可驗證的環境報告,確保運行環境真實可信。
2. 密態大模型的安全流轉邏輯
核心目標:實現“數據可用不可見”,覆蓋大模型“推理”和“後訓練”全流程。
(1)大模型推理流程(Query安全保護)
- 模型部署:模型持有者加密模型並上傳至雲端,雲端將模型加載至TEE內,啓動推理服務並對外提供API;
- 遠程認證:用户端(API/SDK/瀏覽器)向推理服務發起認證請求,TEE生成帶硬件簽名的認證報告(含硬件、固件等信息),經可信根機構驗證後,用户確認環境可信;
- 加密交互:用户端用推理服務公鑰加密“數據密鑰”,再用數據密鑰加密Query內容,密文傳輸至TEE;
- 推理與反饋:TEE內用私鑰解密數據密鑰,再解密Query並執行推理,推理結果用數據密鑰加密後返回,用户端最終解密獲取明文結果。
(2)大模型後訓練流程(數據與模型雙保護)
- 參與方與準備:模型持有者、數據持有者分別加密模型/數據,上傳至雲端;
- 密鑰與策略管理:密態數據協同管理器(跑在TEE內)託管加密密鑰,同時管理授權策略(如“數據僅用於後訓練”);
- 權限校驗與密鑰下發:後訓練應用(跑在TEE內)請求密鑰時,管理器校驗其是否符合授權策略,通過後加密下發密鑰;
- 安全訓練:應用用密鑰解密模型/數據,在TEE內完成SFT(有監督微調)、強化學習等後訓練及評測,全程數據不泄露。
3. 典型應用案例
(1)MOTOP7 IM的AI應用安全
- 痛點:IM的B端客户有大模型使用需求,但核心數據(私聊消息、文檔等)不敢直接交予第三方模型;
- 方案:基於蜜台大模型實現“Query-推理服務-輸出”全鏈路加密,輸入輸出均為密文;
- 價值:保護企業商業機密與用户隱私,推動AI應用在IM場景落地。
(2)密態大模型知識庫
- 痛點:企業/個人有私域知識庫(含商業機密),但不敢直接使用外部雲大模型,自建成本高;
- 方案:端側知識庫檢索結果+用户Query加密後送入雲大模型,模型輸出加密返回;
- 價值:無需自建大模型,即可安全使用雲服務,提升答案可靠性與業務效率,助力垂直領域大模型訓練。
三、實操:從零搭建密態大模型推理服務
1. 核心依賴:TrustFlow框架
- 定位:螞蟻密算開源的TEE計算框架,提供機密計算透明化框架(CCTF),支持應用無縫遷移至TEE環境;
- 核心能力:遠程認證代理、數據安全管控、支持機器學習/深度學習/大模型等場景;
- 開源地址:課程提及的地址可自行訪問獲取。
2. 環境準備
| 類別 | 具體要求 |
|---|---|
| 硬件 | X86服務器(推薦配備英偉達GPU);非X86架構參考VRM官網説明 |
| 網絡 | 可訪問外網(用於獲取模型資源) |
| 軟件 | Python ≥ 3.10;Docker ≥ 19.03 |
| 説明:無需強制準備TEE硬件(普及度有限),普通機器可實現仿真部署,原理完全一致。 |
3. 部署步驟(基於Docker)
- 克隆代碼倉庫:執行
git clone [TrustFlow開源地址]; - 進入實例目錄:切換至課程指定的實例代碼目錄;
- 啓動服務:執行
docker-compose up,出現指定日誌即表示服務啓動成功。
4. 服務驗證
- 安裝依賴:執行
pip install [必要依賴]; - 調用推理服務:執行
python JWClient.py(腳本含默認查詢“你好”); - 驗證結果:成功接收模型明文回覆(如“你好,有什麼可以幫助你嗎”),即表示部署生效。
5. 核心機制説明
部署架構含3個容器,體現CCTF框架的透明化優勢:
- Sidecar容器:提供遠程認證代理等能力;
- Envoy容器:負責通信轉發;
- 核心原理:密態大模型基於機密計算(TEE),實現大模型推理、後訓練全流程的“數據、模型、Query”安全保護,核心是“可用不可見”;
實操價值:基於TrustFlow的CCTF框架,可零基礎快速搭建密態大模型推理服務,降低安全大模型的落地門檻;
- 核心原理:蜜台大模型基於機密計算(TEE),實現大模型推理、後訓練全流程的“數據、模型、Query”安全保護,核心是“可用不可見”;
- 實操價值:基於TrustFlow的CCTF框架,可零基礎快速搭建蜜台大模型推理服務,降低安全大模型的落地門檻;
- 產業意義:解決大模型產業應用的安全瓶頸,推動企業/個人敢用、能用私域數據,助力垂直領域專業大模型的構建。