Midscene v1.0 發佈 - 視覺驅動,UI 自動化體驗躍遷

新聞
HongKong
1
03:04 PM · Dec 26 ,2025

Midscene 是一個視覺模型驅動,支持全平台的 UI 自動化 SDK。ByteDance Web Infra 團隊宣佈 Midscene v1.0 版本已發佈,全面轉向視覺理解方案,提供更穩定可靠的 UI 自動化能力。

視覺模型有以下特點:

  • 效果穩定 :業界領先的視覺模型(如 Doubao Seed 1.6、Qwen3-VL 等)表現足夠穩定,已經可以滿足大多數業務需求

  • UI 操作規劃 :視覺模型通常具備較強的 UI 操作規劃能力,能夠完成不少複雜的任務流程

  • 適用於任意系統 :自動化框架不再依賴 UI 渲染的技術棧。無論是 Android、iOS、桌面應用,還是瀏覽器中的 <canvas>,只要能獲取截圖,Midscene 即可完成交互操作

  • 易於編寫 :拋棄各類 selector 和 DOM 之後,開發者與模型的“磨合”會變得更簡單,不熟悉渲染技術的新人也能很快上手

  • token 量顯著下降 :在去除 DOM 提取之後,視覺方案的 token 使用量可以減少 80%,成本更低,且本地運行速度也變得更快

  • 有開源模型解決方案 :開源模型表現漸佳,開發者開始有機會進行私有化部署模型,如 Qwen3-VL 提供的 8B、30B 等版本在不少項目中都有着不錯的效果

除了默認的交互場景,Midscene 還定義了 Planning(規劃)和 Insight(洞察)兩種意圖,開發者可以按需為它們啓用獨立的模型。例如,用 GPT 模型做規劃,同時使用默認的 Doubao 模型做元素定位。

多模型組合讓開發者可以按需提升複雜需求的處理能力。

針對 Midscene 的運行時表現,進行了以下優化:

  • 減少對設備信息接口的調用,在確保安全的情況下複用部分上下文信息,提升運行時性能,讓大多數的時間消耗集中在模型端

  • 優化 Web 及移動端環境下的 Action Space 組合,向模型開放更合理、更清晰的工具集

回放報告是 Midscene 開發者非常依賴的一個特性,它能有效提升腳本的調試效率。v1.0 還更新了回放報告:

  • 參數視圖:標記出交互參數的位置信息,合併截圖信息,快速識別模型的規劃結果

  • 樣式調整:支持以深色模式展示報告,更美觀

  • Token 消耗的展示:支持按模型彙總 Token 消耗量,分析不同場景的成本情況

重新定義了 Midscene MCP 服務的定位。Midscene MCP 的職責是圍繞着視覺驅動的 UI 操作展開,將 iOS / Android / Web 設備 Action Space 中的每個 Action 操作暴露為 MCP 工具,也就是提供各類“原子操作”。

通過這種形式,開發者可以更專注於構建自己的高階 Agent,而無需關心底層 UI 操作的實現細節,並且時刻獲得滿意的成功率。

移動端能力增強

iOS 改進

  • 新增 WebDriverAgent 5.x-7.x 全版本兼容

  • 新增 WebDriver Clear API 支持,解決動態輸入框問題

  • 提升設備兼容性

Android 改進

  • 新增截圖輪詢回退機制,提升遠程設備穩定性

  • 新增屏幕方向自動適配(displayId 截圖)

  • 新增 YAML 腳本 runAdbShell 支持

跨平台

  • 在 Agent 實例上暴露系統操作接口,包括 Home、Back、RecentApp 等

API 變更

方法重命名(向後兼容)

  • 改名 aiAction() → aiAct()(舊方法保留,有棄用警告)

  • 改名 logScreenshot() → recordToReport()(舊方法保留,有棄用警告)

環境變量重命名(向後兼容)

  • 改名 OPENAI_API_KEY → MODEL_API_KEY(新變量優先,舊變量作為備選)

  • 改名 OPENAI_BASE_URL → MODEL_BASE_URL(新變量優先,舊變量作為備選)

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.