OSWorld-MCP 已正式發佈,這是首個用於在真實環境中全面評估 Computer-Use Agents 產品能力的基準測試。
OSWorld-MCP 綜合衡量產品的模型上下文協議(MCP)工具調用能力、圖形用户界面(GUI)操作技能以及決策表現,其作為 OSWorld 的擴展設計,提升了評估的真實度、平衡性和可比性。
主要特性:
- 158 個經過驗證的 MCP 工具,涵蓋 7 個常用應用程序(LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 和操作系統實用程序)。其中, 25 個是用於魯棒性測試的干擾項工具。
- 250 項工具適用性任務 → 69% 的基準任務受益於 MCP 工具
- 可以進行多輪工具調用,這給決策帶來了真正的挑戰
- MCP 工具可提升模型準確率和效率——例如,OpenAI o3:8.3% → 20.4%(15 步)
- 觀察到的最高工具調用率 ( TIR ) = 36.3%(Claude-4-Sonnet,50 步)→ 表明仍有很大的改進空間
- MCP 工具可提升代理商指標
- 工具調用次數越多,準確率越高
- 工具組合會帶來重大挑戰
下圖是 OSWorld-MCP 評估框架,集成了 GUI 操作和 MCP 工具調用:
該項目已開源,其官網提供了完整的資源和説明。
https://github.com/X-PLUG/OSWorld-MCP
https://arxiv.org/abs/2510.24563