OSWorld-MCP 正式發佈：面向 Computer-Use Agents 產品的評測基準 - News Detail

OSWorld-MCP 已正式發佈，這是首個用於在真實環境中全面評估 Computer-Use Agents 產品能力的基準測試。

OSWorld-MCP 綜合衡量產品的模型上下文協議（MCP）工具調用能力、圖形用户界面（GUI）操作技能以及決策表現，其作為 OSWorld 的擴展設計，提升了評估的真實度、平衡性和可比性。

主要特性：

158 個經過驗證的 MCP 工具，涵蓋 7 個常用應用程序（LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 和操作系統實用程序）。其中， 25 個是用於魯棒性測試的干擾項工具。
250 項工具適用性任務 → 69% 的基準任務受益於 MCP 工具
可以進行多輪工具調用，這給決策帶來了真正的挑戰
MCP 工具可提升模型準確率和效率——例如，OpenAI o3：8.3% → 20.4%（15 步）
觀察到的最高工具調用率 ( TIR ) = 36.3%（Claude-4-Sonnet，50 步）→ 表明仍有很大的改進空間
MCP 工具可提升代理商指標
工具調用次數越多，準確率越高
工具組合會帶來重大挑戰

下圖是 OSWorld-MCP 評估框架，集成了 GUI 操作和 MCP 工具調用：

該項目已開源，其官網提供了完整的資源和説明。

https://github.com/X-PLUG/OSWorld-MCP
https://arxiv.org/abs/2510.24563