OpenAI 近日正式通過 API 向開發者開放其目前最強大的編程模型 GPT‑5.1‑Codex‑Max,主打長時間運行和“代理式”編碼任務,在多項權威基準測試中的成績明顯優於常規版 GPT‑5.1‑Codex。 更具吸引力的是,儘管性能提升明顯,這一新模型在 API 中的定價卻與 GPT‑5 保持一致,被外界視為一次“高性能不漲價”的策略性升級。
報道指出,GPT‑5.1‑Codex‑Max 通過名為“壓縮(compaction)”的技術進行訓練,可在超過一百萬 tokens 的超長上下文窗口中持續工作,內部測試顯示該模型能夠穩定執行持續超過 24 小時的任務。 在 SWE‑Bench Verified、SWE‑Lancer IC SWE 和 TerminalBench 2.0 等面向真實軟件工程場景的基準測試中,GPT‑5.1‑Codex‑Max 的得分分別提升至 77.9%、79.9% 和 58.1%,相較常規版 GPT‑5.1‑Codex 有明顯進步,凸顯其在複雜、多步驟開發任務中的優勢。
在商用層面,OpenAI 已將 GPT‑5.1‑Codex‑Max 以與 GPT‑5 相同的價格接入 API,輸入端約為每百萬 tokens 1.25 美元、輸出端每百萬 tokens 10 美元,同時沿用 GPT‑5 的速率限制策略。 此前,這一模型僅面向使用 Codex CLI、IDE 擴展、雲端服務和代碼審查功能的高階訂閲用户開放,如 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 等,如今通過 API 普及後,OpenAI 也宣佈將其設為 Codex 體系中的默認代碼模型。
與以往偏向 Unix 環境優化的 Codex 系列不同,GPT‑5.1‑Codex‑Max 在訓練階段特別針對 Windows 環境進行了適配,這使其對大量使用 Windows 作為主要開發平台的程序員而言具有更直接的吸引力。 由於新模型在速度和 tokens 利用效率方面均優於常規版 GPT‑5.1‑Codex,報道認為,Windows 開發者如無特殊需求,轉向這一模型幾乎是“無需猶豫的選擇”。
藉助這次 API 放開,GPT‑5.1‑Codex‑Max 已迅速進入多款熱門開發工具生態,包括 Cursor、GitHub Copilot、Linear 等在內的編碼助手產品。 在 GitHub Copilot 體系中,該模型將向 Pro、Pro+、Business 和 Enterprise 訂閲用户開放,並出現在多個使用場景的模型選擇器中,例如 Visual Studio Code 的聊天、提問、編輯和 agent 模式,以及 GitHub 網頁端和移動端的 Copilot Chat 與 Copilot CLI 等入口。
競爭層面上,OpenAI 此舉顯然是針對對手 Anthropic 的強勢擴張做出的迴應,後者近年來將精力集中在面向企業和開發者的代碼模型上,其 Claude Code 工具已成為最快達到十億美元里程碑的 SaaS 產品之一。 報道援引行業預期稱,Anthropic 今年僅依靠面向開發與企業的代碼模型業務,就有望實現 80 至 100 億美元收入,而這也促使 OpenAI 在 8 月推出 GPT‑5‑Codex,並在短時間內帶動 Codex 使用量增長超過 10 倍、每週服務的 tokens 規模達到萬億級。
在此背景下,GPT‑5.1‑Codex‑Max 被視為 OpenAI 在開發者市場上的又一重要“加碼”,旨在強化其在企業級編碼工具領域與 Anthropic 的正面競爭力。 不過目前尚難判斷這一新模型的上線及其與 GitHub Copilot 的深度整合,是否足以顯著減緩 Anthropic 在企業編碼市場上的迅猛增勢,未來一段時間內兩家在高端開發者工具賽道的博弈仍將持續升温。
瞭解更多:https://github.blog/changelog/2025-12-04-openais-gpt-5-1-codex-max-is-now-in-public-preview-for-github-copilot/