Midscene v1.0 發佈 - 視覺驅動，UI 自動化體驗躍遷 - 新聞詳情

Midscene 是一個視覺模型驅動，支持全平台的 UI 自動化 SDK。ByteDance Web Infra 團隊宣佈 Midscene v1.0 版本已發佈，全面轉向視覺理解方案，提供更穩定可靠的 UI 自動化能力。

視覺模型有以下特點：

效果穩定 ：業界領先的視覺模型（如 Doubao Seed 1.6、Qwen3-VL 等）表現足夠穩定，已經可以滿足大多數業務需求
UI 操作規劃 ：視覺模型通常具備較強的 UI 操作規劃能力，能夠完成不少複雜的任務流程
適用於任意系統 ：自動化框架不再依賴 UI 渲染的技術棧。無論是 Android、iOS、桌面應用，還是瀏覽器中的 <canvas>，只要能獲取截圖，Midscene 即可完成交互操作
易於編寫 ：拋棄各類 selector 和 DOM 之後，開發者與模型的“磨合”會變得更簡單，不熟悉渲染技術的新人也能很快上手
token 量顯著下降 ：在去除 DOM 提取之後，視覺方案的 token 使用量可以減少 80%，成本更低，且本地運行速度也變得更快
有開源模型解決方案 ：開源模型表現漸佳，開發者開始有機會進行私有化部署模型，如 Qwen3-VL 提供的 8B、30B 等版本在不少項目中都有着不錯的效果

除了默認的交互場景，Midscene 還定義了 Planning（規劃）和 Insight（洞察）兩種意圖，開發者可以按需為它們啓用獨立的模型。例如，用 GPT 模型做規劃，同時使用默認的 Doubao 模型做元素定位。

多模型組合讓開發者可以按需提升複雜需求的處理能力。

針對 Midscene 的運行時表現，進行了以下優化：

回放報告是 Midscene 開發者非常依賴的一個特性，它能有效提升腳本的調試效率。v1.0 還更新了回放報告：

重新定義了 Midscene MCP 服務的定位。Midscene MCP 的職責是圍繞着視覺驅動的 UI 操作展開，將 iOS / Android / Web 設備 Action Space 中的每個 Action 操作暴露為 MCP 工具，也就是提供各類“原子操作”。

通過這種形式，開發者可以更專注於構建自己的高階 Agent，而無需關心底層 UI 操作的實現細節，並且時刻獲得滿意的成功率。

iOS 改進

Android 改進

跨平台

方法重命名（向後兼容）

環境變量重命名（向後兼容）

Midscene v1.0 發佈 - 視覺驅動，UI 自動化體驗躍遷