近日,豆包手機助手針對其技術原理髮布説明,澄清其嚴格遵循系統安全機制,無法截取如銀行安全鍵盤等被標記為Secure的受保護界面內容。
豆包手機助手操作手機功能的實現原理是:
用户下達指令 -> 截屏發送給雲端豆包大模型 -> 模型理解後返回具體操作 -> 手機端執行操作指令,不斷重複直到完成任務。因此每一步操作後都需要再截圖上傳給雲端大模型分析,每步操作間隔約為 3 秒鐘。
該助手使用的是系統原生截屏接口(WindowManagerService.captureDisplay),此接口會自動規避安全內容。説明中指出,其所需的READ_FRAME_BUFFER等系統權限,旨在為運行於虛擬屏中的普通應用提供截屏能力,以供雲端AI模型分析執行用户指令。
圖:豆包手機助手無法讀取受系統保護的界面內容
對於受保護頁面,相關權限僅用於確保用户在虛擬屏投影中可正常查看與操作,但界面內容仍受保護,無法被截取。豆包手機助手強調,其僅在用户指令下進行截屏,且截圖僅用於實時任務推理,完成後不會在雲端存儲。