OSWorld-MCP 正式發佈:面向 Computer-Use Agents 產品的評測基準 - News Detail

OSWorld-MCP 已正式發佈,這是首個用於在真實環境中全面評估 Computer-Use Agents 產品能力的基準測試。

OSWorld-MCP 綜合衡量產品的模型上下文協議(MCP)工具調用能力、圖形用户界面(GUI)操作技能以及決策表現,其作為 OSWorld 的擴展設計,提升了評估的真實度、平衡性和可比性。

主要特性:

  • 158 個經過驗證的 MCP 工具,涵蓋 7 個常用應用程序(LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 和操作系統實用程序)。其中, 25 個是用於魯棒性測試的干擾項工具。
  • 250 項工具適用性任務 → 69% 的基準任務受益於 MCP 工具
  • 可以進行多輪工具調用,這給決策帶來了真正的挑戰
  • MCP 工具可提升模型準確率和效率——例如,OpenAI o3:8.3% → 20.4%(15 步)
  • 觀察到的最高工具調用率 ( TIR ) = 36.3%(Claude-4-Sonnet,50 步)→ 表明仍有很大的改進空間
  • MCP 工具可提升代理商指標
  • 工具調用次數越多,準確率越高
  • 工具組合會帶來重大挑戰

下圖是 OSWorld-MCP 評估框架,集成了 GUI 操作和 MCP 工具調用:

該項目已開源,其官網提供了完整的資源和説明。

https://github.com/X-PLUG/OSWorld-MCP
https://arxiv.org/abs/2510.24563