AI 編程輔助工具 Cursor 近日分享了一項內部測試發現:在處理超長程、自主性的編程任務時,OpenAI 最新的GPT-5.2模型表現出比 Anthropic 的Claude Opus4.5更高的可靠性。
為了驗證模型能力,Cursor 團隊嘗試從零開始構建一個功能完備的Web 瀏覽器,涵蓋了 HTML 解析、CSS 佈局及自定義 JavaScript 虛擬機等複雜底層架構。
實測結果顯示,GPT-5.2在這種需要數百萬行代碼、耗時數週的“長跑式”任務中,能夠更精準地遵循複雜指令,並保持極高的專注度,有效避免了長程任務中常見的“目標漂移”問題。相比之下,Claude Opus4.5雖然在許多場景表現出色,但在處理此類極大規模工程時,往往更傾向於中途停止或尋找捷徑,提前交出控制權。
目前,Cursor已在其平台上同步上線了GPT-5.2模型,旨在探索 AI 代理是否能獨立完成通常需要人類團隊花費數月才能完成的大型項目。除了瀏覽器實驗,該模型還成功完成了包括 Windows7模擬器及超百萬行代碼的複雜遷移任務,展現了生成式 AI 在自主工程領域的巨大潛力。