最新基準研究顯示,即便是當前最先進的 AI 智能體(AI Agents),在真實世界的自由職業任務中表現依舊乏力,成功率不足 3%。
https://arxiv.org/abs/2510.26787
此研究由 Scale AI 與 Center for AI Safety(CAIS)聯合發起,該團隊構建了一個名為 “Remote Labor Index”(遠程勞動指數,RLI) 的基準,用以衡量 AI Agent 在真實、可付費的遠程/自由職業任務上的能力。樣本任務包括:從自由職業平台(如 Upwork)獲取真實任務,涵蓋數據抓取、圖形設計、視頻編輯、遊戲開發、行政協作等多種類型。
在這些任務裏,最強的 AI Agent 在所有任務中,可成功完成的只佔極少數,且產生的“收入”(如果按人力計費)遠低於人類。
研究指出,AI Agent 普遍難以勝任需要多步驟流程、多工具協作、與不明確需求溝通的任務。同時,AI Agent 缺乏持續記憶與長期項目積累能力,導致在真實自由職業環境中難以像人類那樣不斷迭代與自我修正。
雖然 AI Agent 在某些特定、結構化任務上表現不錯,但距離完全替代遠程工作者或自由職業者仍有相當距離。研究團隊也表示,短期內企業更適合將 AI 用於流程輔助,而非完全自主執行復雜工作。
整體來看,這一結果為當前市場的 AI Agent 熱潮提供了更現實的參考:技術正在快速進步,但在複雜真實任務中的可用性仍有限,人類的溝通、判斷與跨工具整合能力仍然不可替代。