OpenAI 發佈 GPT-5.1-Codex-Max,專為複雜軟件工程任務打造

新聞
HongKong
23
03:03 PM · Nov 20 ,2025

OpenAI 今天推出全新的 GPT-5.1-Codex-Max,定位為下一代代碼模型,專為複雜、長期、多階段的軟件工程任務打造。它不僅能寫代碼、補全函數,還能在數十萬字上下文中持續推進大型項目。

這次的最大升級是一個名為 compaction 的上下文壓縮機制:模型會在任務進行中自動整理記憶、保留關鍵信息,讓工程任務能在“超長上下文”下持續運行,而不會卡住或遺失狀態。

Codex-Max 經過大量真實開發工作訓練,包括前端開發、調試、數學推理、PR 編寫與代碼審查等。在多項工程測試中,它的效率與準確率明顯領先上一代模型,同時減少了令牌消耗。

評估項目 指標/表現 説明
SWE-bench Verified (n = 500) 73.7% → 77.9% 在該大規模軟件工程任務集上,從上代 GPT‑5.1‑Codex 到 GPT-5.1-Codex-Max 有明顯提升。
SWE-Lancer IC SWE 66.3% → 79.9% 在“獨立貢獻軟件工程師任務”集上也有大幅提升。
Terminal-Bench 2.0 52.8% → 58.1% 面向 CLI/終端環境任務,提升雖較小但仍可見。 
上下文長度及 “長期任務”能力 模型可在 “多上下文窗口(multiple context windows)” 環境下使用,持續數小時、甚至超過 24 小時運作。 指其在 “長流程、項目規模” 任務上的能力增強。
令牌效率(token efficiency) 在 “medium reasoning effort” 模式下,與上代相比使用約 少 30% 思考令牌 即可達到更好效果。  有助於降低成本/提升效率。
安全 / 不安全內容評估 (Production Benchmarks) 如 “illicit” 類別:0.860 → 0.920;“sexual/minors”:0.901 → 0.970。 表示在這些模型安全基準上有提升(不過仍有限制説明)。
網絡安全 (Cybersecurity) 能力 在多種仿真攻擊場景中:   – 網絡攻擊模擬(Network Attack Simulation)平均 37% 成功率   – 漏洞發現與利用(Vulnerability Discovery and Exploitation)平均 41%   – 迴避(Evasion)平均 43%  雖為迄今最強,但官方説明 “尚未達到 High capability” 閾值。
生物/化學領域 (Bio & Chem) 能力 在長形式生物風險問題中,模型 “拒絕率” 達 100%。  表明生物化學屬於高風險域,OpenAI 將其標記為 “High risk” 並採用嚴格防護。

OpenAI 表示,模型的能力增強也帶來更高安全要求,特別是在網絡安全、生物化學等領域,需要更嚴格的防護策略。不過在網絡安全能力上,它尚未達到“高能力”級別。

目前,GPT-5.1-Codex-Max 已成為 Codex 系列工具的默認模型,正在向開發者與企業逐步開放。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.