Midscene 是一個視覺模型驅動,支持全平台的 UI 自動化 SDK。ByteDance Web Infra 團隊宣佈 Midscene v1.0 版本已發佈,全面轉向視覺理解方案,提供更穩定可靠的 UI 自動化能力。
視覺模型有以下特點:
-
效果穩定 :業界領先的視覺模型(如 Doubao Seed 1.6、Qwen3-VL 等)表現足夠穩定,已經可以滿足大多數業務需求
-
UI 操作規劃 :視覺模型通常具備較強的 UI 操作規劃能力,能夠完成不少複雜的任務流程
-
適用於任意系統 :自動化框架不再依賴 UI 渲染的技術棧。無論是 Android、iOS、桌面應用,還是瀏覽器中的
<canvas>,只要能獲取截圖,Midscene 即可完成交互操作 -
易於編寫 :拋棄各類 selector 和 DOM 之後,開發者與模型的“磨合”會變得更簡單,不熟悉渲染技術的新人也能很快上手
-
token 量顯著下降 :在去除 DOM 提取之後,視覺方案的 token 使用量可以減少 80%,成本更低,且本地運行速度也變得更快
-
有開源模型解決方案 :開源模型表現漸佳,開發者開始有機會進行私有化部署模型,如 Qwen3-VL 提供的 8B、30B 等版本在不少項目中都有着不錯的效果
除了默認的交互場景,Midscene 還定義了 Planning(規劃)和 Insight(洞察)兩種意圖,開發者可以按需為它們啓用獨立的模型。例如,用 GPT 模型做規劃,同時使用默認的 Doubao 模型做元素定位。
多模型組合讓開發者可以按需提升複雜需求的處理能力。
針對 Midscene 的運行時表現,進行了以下優化:
-
減少對設備信息接口的調用,在確保安全的情況下複用部分上下文信息,提升運行時性能,讓大多數的時間消耗集中在模型端
-
優化 Web 及移動端環境下的 Action Space 組合,向模型開放更合理、更清晰的工具集
回放報告是 Midscene 開發者非常依賴的一個特性,它能有效提升腳本的調試效率。v1.0 還更新了回放報告:
-
參數視圖:標記出交互參數的位置信息,合併截圖信息,快速識別模型的規劃結果
-
樣式調整:支持以深色模式展示報告,更美觀
-
Token 消耗的展示:支持按模型彙總 Token 消耗量,分析不同場景的成本情況
重新定義了 Midscene MCP 服務的定位。Midscene MCP 的職責是圍繞着視覺驅動的 UI 操作展開,將 iOS / Android / Web 設備 Action Space 中的每個 Action 操作暴露為 MCP 工具,也就是提供各類“原子操作”。
通過這種形式,開發者可以更專注於構建自己的高階 Agent,而無需關心底層 UI 操作的實現細節,並且時刻獲得滿意的成功率。
移動端能力增強
iOS 改進
-
新增 WebDriverAgent 5.x-7.x 全版本兼容
-
新增 WebDriver Clear API 支持,解決動態輸入框問題
-
提升設備兼容性
Android 改進
-
新增截圖輪詢回退機制,提升遠程設備穩定性
-
新增屏幕方向自動適配(displayId 截圖)
-
新增 YAML 腳本
runAdbShell支持
跨平台
- 在 Agent 實例上暴露系統操作接口,包括 Home、Back、RecentApp 等
API 變更
方法重命名(向後兼容)
-
改名
aiAction()→aiAct()(舊方法保留,有棄用警告) -
改名
logScreenshot()→recordToReport()(舊方法保留,有棄用警告)
環境變量重命名(向後兼容)
-
改名
OPENAI_API_KEY→MODEL_API_KEY(新變量優先,舊變量作為備選) -
改名
OPENAI_BASE_URL→MODEL_BASE_URL(新變量優先,舊變量作為備選)