AI Agent 目前仍難勝任自由職業任務 - 新闻详情

最新基準研究顯示，即便是當前最先進的 AI 智能體（AI Agents），在真實世界的自由職業任務中表現依舊乏力，成功率不足 3%。

https://arxiv.org/abs/2510.26787

此研究由 Scale AI 與 Center for AI Safety（CAIS）聯合發起，該團隊構建了一個名為 “Remote Labor Index”（遠程勞動指數，RLI）的基準，用以衡量 AI Agent 在真實、可付費的遠程/自由職業任務上的能力。樣本任務包括：從自由職業平台（如 Upwork）獲取真實任務，涵蓋數據抓取、圖形設計、視頻編輯、遊戲開發、行政協作等多種類型。

在這些任務裏，最強的 AI Agent 在所有任務中，可成功完成的只佔極少數，且產生的“收入”（如果按人力計費）遠低於人類。

研究指出，AI Agent 普遍難以勝任需要多步驟流程、多工具協作、與不明確需求溝通的任務。同時，AI Agent 缺乏持續記憶與長期項目積累能力，導致在真實自由職業環境中難以像人類那樣不斷迭代與自我修正。

雖然 AI Agent 在某些特定、結構化任務上表現不錯，但距離完全替代遠程工作者或自由職業者仍有相當距離。研究團隊也表示，短期內企業更適合將 AI 用於流程輔助，而非完全自主執行復雜工作。

整體來看，這一結果為當前市場的 AI Agent 熱潮提供了更現實的參考：技術正在快速進步，但在複雜真實任務中的可用性仍有限，人類的溝通、判斷與跨工具整合能力仍然不可替代。

AI Agent 目前仍難勝任自由職業任務 - 新闻 详情

AI Agent 目前仍難勝任自由職業任務 - 新闻详情