OpenAI 近日承認,帶有代理(Agent)能力的 AI 瀏覽器在結構上難以徹底消除“提示注入”(prompt injection)攻擊風險,即便持續加強防護,仍只能將其視為長期安全挑戰而非可被完全“解決”的技術問題。 為此,公司正通過更快的安全修補節奏以及大規模自動化攻防演練,試圖在真實攻擊出現之前主動發現 Atlas 瀏覽器中的潛在漏洞。
OpenAI 於 10 月正式推出內置在 ChatGPT 中的 Atlas AI 瀏覽器後,安全研究人員隨即演示,只需在 Google Docs 等頁面中寫入寥寥數語,即可悄然改變瀏覽器底層行為,這凸顯了“代理模式”在訪問用户郵箱、網站等開放環境時,安全攻擊面被顯著放大。 同日,Brave 在博客中也指出,間接提示注入是所有 AI 瀏覽器面臨的系統性難題,Perplexity 的 Comet 等產品同樣不例外。
這並非 OpenAI 一家的判斷。英國國家網絡安全中心(NCSC)本月早些時候警告稱,針對生成式 AI 應用的提示注入攻擊“可能永遠無法被完全緩解”,網站可能因此遭遇大規模數據泄露。 NCSC 建議安全團隊轉而關注“降低風險和影響”,而不是寄望於徹底阻止此類攻擊。 OpenAI 在最新博文中直言,將提示注入視為長期 AI 安全課題,必須持續加固防禦。
在防禦策略上,OpenAI 與 Anthropic、Google 等競爭對手的共識是:需要疊加多層防護並持續壓力測試系統。 Google 近期的安全研究則側重於在系統架構和策略層面對“代理型系統”施加約束,例如通過訪問控制和行為策略減少風險。
不過,OpenAI 試圖走出一條差異化路徑——打造一個“基於大模型的自動化攻擊者”。 這一系統本質上是一個扮演黑客角色的機器人,經由強化學習訓練,專門尋找向 AI 代理“暗遞”惡意指令的各種方法。 在內部測試中,攻擊機器人可以先在模擬環境中發動攻擊,系統會展示目標 AI 在看到這類攻擊時的“思考過程”以及可能採取的動作,攻擊機器人再據此調整策略並反覆嘗試。 OpenAI 認為,這種對目標模型內部推理過程的洞察,是現實世界攻擊者所不具備的優勢,因此有望更快發現隱藏漏洞。
OpenAI 表示,其強化學習攻擊者能夠引導代理執行復雜的、由數十步甚至數百步組成的有害操作流程,並在這一過程中摸索出此前在人類紅隊演練或外部報告中從未出現過的新型攻擊路徑。 這與當前 AI 安全測試領域常見做法一致——先構建能“踩邊”的代理,在高頻模擬中不斷探索邊界並反向加固防線。
在最新的演示中,OpenAI 展示了自動化攻擊者如何向用户郵箱中悄然植入一封惡意郵件。 當 AI 代理稍後掃描收件箱、準備撰寫外出自動回覆時,它被郵件中隱藏的指令誘導,轉而替用户發送了一封辭職郵件。 OpenAI 稱,在最近一輪安全更新後,Atlas 的“代理模式”已經能夠識別此類提示注入企圖並向用户發出警報。 公司還強調,雖然提示注入難以實現“萬無一失”的防禦,但將通過更大規模的自動化測試和更快的補丁節奏,儘量在問題被攻擊者利用前完成修復。
OpenAI 發言人拒絕透露這些更新是否已經在統計上顯著降低成功攻擊率,但表示公司自 Atlas 上線前就已與第三方安全機構合作,持續對該瀏覽器進行攻防演練,以強化其在提示注入方面的防護能力。
外部安全專家對這一路線持審慎肯定。網絡安全公司 Wiz 的首席安全研究員 Rami McCarthy 指出,強化學習確實是一種持續適應攻擊者行為的方式,但只能構成解決方案的一部分。 他提出,一個實用的風控框架是將 AI 系統的風險視為“自治程度 × 訪問權限”的乘積。 在這一座標系中,具備一定自主決策能力、但同時擁有極高數據訪問權限的“代理瀏覽器”,天然處在風險較高的區域。
因此,業界許多建議都圍繞“降低訪問暴露”和“限制自主操作”展開。 例如,減少代理在登錄狀態下訪問敏感賬户的機會,以減少潛在攻擊面;同時對發送消息、發起支付等關鍵動作設置強制用户確認,從而把代理的自主性控制在可接受範圍內。 OpenAI 方面表示,Atlas 已經過訓練,在發送消息或執行支付前會主動徵求用户確認。 公司還建議用户儘量以明確任務指令來驅動代理,而不是籠統地賦予其廣泛權限,例如不要簡單地授權它“打理整個郵箱並採取一切必要行動”。 正如 OpenAI 所言,賦予代理過大的行動空間,會顯著放大隱藏或惡意內容影響其決策的機會,即便系統內置了多重安全保障。
儘管 OpenAI 強調保護 Atlas 用户免受提示注入攻擊是公司“頭等優先級”,McCarthy 仍提醒外界,對這類高風險瀏覽器的投入產出比應持一定懷疑態度。 在他看來,就目前多數日常場景而言,“代理瀏覽器”為用户帶來的增量價值,還不足以完全抵消其當前風險畫像。 這類工具對郵箱、支付信息等敏感數據擁有高度訪問權限,這既是其強大之處,也是其風險所在,而這種權衡短期內仍將十分尖鋭。