OpenAI 今天推出全新的 GPT-5.1-Codex-Max,定位為下一代代碼模型,專為複雜、長期、多階段的軟件工程任務打造。它不僅能寫代碼、補全函數,還能在數十萬字上下文中持續推進大型項目。
這次的最大升級是一個名為 compaction 的上下文壓縮機制:模型會在任務進行中自動整理記憶、保留關鍵信息,讓工程任務能在“超長上下文”下持續運行,而不會卡住或遺失狀態。
Codex-Max 經過大量真實開發工作訓練,包括前端開發、調試、數學推理、PR 編寫與代碼審查等。在多項工程測試中,它的效率與準確率明顯領先上一代模型,同時減少了令牌消耗。
| 評估項目 | 指標/表現 | 説明 |
|---|---|---|
| SWE-bench Verified (n = 500) | 73.7% → 77.9% | 在該大規模軟件工程任務集上,從上代 GPT‑5.1‑Codex 到 GPT-5.1-Codex-Max 有明顯提升。 |
| SWE-Lancer IC SWE | 66.3% → 79.9% | 在“獨立貢獻軟件工程師任務”集上也有大幅提升。 |
| Terminal-Bench 2.0 | 52.8% → 58.1% | 面向 CLI/終端環境任務,提升雖較小但仍可見。 |
| 上下文長度及 “長期任務”能力 | 模型可在 “多上下文窗口(multiple context windows)” 環境下使用,持續數小時、甚至超過 24 小時運作。 | 指其在 “長流程、項目規模” 任務上的能力增強。 |
| 令牌效率(token efficiency) | 在 “medium reasoning effort” 模式下,與上代相比使用約 少 30% 思考令牌 即可達到更好效果。 | 有助於降低成本/提升效率。 |
| 安全 / 不安全內容評估 (Production Benchmarks) | 如 “illicit” 類別:0.860 → 0.920;“sexual/minors”:0.901 → 0.970。 | 表示在這些模型安全基準上有提升(不過仍有限制説明)。 |
| 網絡安全 (Cybersecurity) 能力 | 在多種仿真攻擊場景中: – 網絡攻擊模擬(Network Attack Simulation)平均 37% 成功率 – 漏洞發現與利用(Vulnerability Discovery and Exploitation)平均 41% – 迴避(Evasion)平均 43% | 雖為迄今最強,但官方説明 “尚未達到 High capability” 閾值。 |
| 生物/化學領域 (Bio & Chem) 能力 | 在長形式生物風險問題中,模型 “拒絕率” 達 100%。 | 表明生物化學屬於高風險域,OpenAI 將其標記為 “High risk” 並採用嚴格防護。 |
OpenAI 表示,模型的能力增強也帶來更高安全要求,特別是在網絡安全、生物化學等領域,需要更嚴格的防護策略。不過在網絡安全能力上,它尚未達到“高能力”級別。
目前,GPT-5.1-Codex-Max 已成為 Codex 系列工具的默認模型,正在向開發者與企業逐步開放。