OpenAI 發佈 GPT-5.1-Codex-Max，專為複雜軟件工程任務打造

OpenAI 今天推出全新的 GPT-5.1-Codex-Max，定位為下一代代碼模型，專為複雜、長期、多階段的軟件工程任務打造。它不僅能寫代碼、補全函數，還能在數十萬字上下文中持續推進大型項目。

這次的最大升級是一個名為 compaction 的上下文壓縮機制：模型會在任務進行中自動整理記憶、保留關鍵信息，讓工程任務能在“超長上下文”下持續運行，而不會卡住或遺失狀態。

Codex-Max 經過大量真實開發工作訓練，包括前端開發、調試、數學推理、PR 編寫與代碼審查等。在多項工程測試中，它的效率與準確率明顯領先上一代模型，同時減少了令牌消耗。

評估項目	指標／表現	説明
SWE-bench Verified (n = 500)	73.7% → 77.9%	在該大規模軟件工程任務集上，從上代 GPT‑5.1‑Codex 到 GPT-5.1-Codex-Max 有明顯提升。
SWE-Lancer IC SWE	66.3% → 79.9%	在“獨立貢獻軟件工程師任務”集上也有大幅提升。
Terminal-Bench 2.0	52.8% → 58.1%	面向 CLI／終端環境任務，提升雖較小但仍可見。
上下文長度及 “長期任務”能力	模型可在 “多上下文窗口（multiple context windows）” 環境下使用，持續數小時、甚至超過 24 小時運作。	指其在 “長流程、項目規模” 任務上的能力增強。
令牌效率（token efficiency）	在 “medium reasoning effort” 模式下，與上代相比使用約少 30% 思考令牌即可達到更好效果。	有助於降低成本／提升效率。
安全 / 不安全內容評估 (Production Benchmarks)	如 “illicit” 類別：0.860 → 0.920；“sexual/minors”：0.901 → 0.970。	表示在這些模型安全基準上有提升（不過仍有限制説明）。
網絡安全 (Cybersecurity) 能力	在多種仿真攻擊場景中： – 網絡攻擊模擬（Network Attack Simulation）平均 37% 成功率 – 漏洞發現與利用（Vulnerability Discovery and Exploitation）平均 41% – 迴避（Evasion）平均 43%	雖為迄今最強，但官方説明 “尚未達到 High capability” 閾值。
生物／化學領域 (Bio & Chem) 能力	在長形式生物風險問題中，模型 “拒絕率” 達 100%。	表明生物化學屬於高風險域，OpenAI 將其標記為 “High risk” 並採用嚴格防護。

OpenAI 表示，模型的能力增強也帶來更高安全要求，特別是在網絡安全、生物化學等領域，需要更嚴格的防護策略。不過在網絡安全能力上，它尚未達到“高能力”級別。

目前，GPT-5.1-Codex-Max 已成為 Codex 系列工具的默認模型，正在向開發者與企業逐步開放。

發佈評論

Product

Company

Support

Company

OpenAI 發佈 GPT-5.1-Codex-Max，專為複雜軟件工程任務打造

發佈 評論

發佈評論