剛剛，Claude Opus 4.6 和 GPT-5.3-Codex 同時炸場！AI 編程要變天了詳情 - AI 程序員魚皮博客

大家好，我是程序員魚皮。

今天凌晨，AI 圈又雙叒炸了。Anthropic 和 OpenAI 幾乎同時發佈了自家的最新大模型 —— Claude Opus 4.6 和 GPT-5.3-Codex，中門對狙，火藥味十足。

這次兩家是真往編程和實際工作能力上捲了，不是那種 “跑分升了 2 個點” 就發篇博客的敷衍更新。

下面我帶大家快速瞭解一下，這兩個模型到底更新了什麼？對我們程序員和 AI 玩家來説有什麼用？

Claude Opus 4.6：更聰明、更能幹、更持久

先説 Anthropic 這邊。Claude Opus 4.6 是目前 Claude 家族最強的模型，之前用 Claude Opus 4.5 編程就已經讓我感覺 “AI 寫代碼無所不能” 了，而這次的 Opus 4.6 在多項評估中均處於最先進水平，包括智能編碼、多學科推理、知識工作和智能搜索等。

光看這個跑分我就賊激動了！

實際上手後，我最直觀的感受就是：幹活更靠譜了。

具體更新了這些：

1）編程能力大幅提升：Opus 4.6 能更好地在大型代碼庫中工作，調試和代碼審查能力增強，寫完代碼還能自己檢查錯誤。

我實測了一波，讓之前的 Opus 4.5 和新出的 Opus 4.6 同時開發一個「聚合搜索引擎」項目：

請你幫我開發一個聚合搜索網站，包含完整的前端和後端，能夠同時從多個不同的搜索引擎搜索和聚合結果。
應該先做 MVP 最小可行產品，整個過程不需要向我確認、不需要我提供 API Key，你必須確保功能正常可用。

幾分鐘後，二者都完成了任務：

但是對比一下實際搜索效果，Opus 4.5 完敗，看到這我就放心了，以後我用 AI 編程估計 Bug 更少了~

2）100 萬 token 上下文窗口。Opus 系列第一次支持這麼長的上下文，簡單來説就是你可以一次性給它丟一大堆文件和代碼，它都能記住並理解，不會像以前那樣聊着聊着就失憶了。

這也是我最最最期待的特性，複雜的前後端項目也可以在同一對話框中一把梭了！不用來來回回總結上下文和新開對話框。

贛，準備嘎嘎燒 Tokens 了。

3）128k 輸出 token。輸出長度翻倍，意味着 Claude 可以一次性生成更長的代碼和文檔，不用再拆成好幾次請求了。

4）自適應思考。以前開發者只能手選開啓或關閉深度推理，現在 Claude 會自動判斷這個問題需不需要深度思考。簡單問題秒回，複雜問題慢慢想，智能調節，省時省錢。

5）上下文壓縮。以前跑長任務的時候，AI 經常會撞到上下文長度的天花板。現在 Claude 能自動壓縮和總結之前的對話內容，讓長時間運行的任務不會中途翻車。搭配 100 萬 token 上下文，不敢想象有多持久！

6）Claude Code 支持多智能體協作。你可以同時啓動多個 AI Agent 並行工作，比如讓幾個 Agent 同時審查代碼庫的不同部分，效率直接翻倍。

7）Claude in Excel 大升級。現在能處理更復雜的長時間任務，支持數據透視表、圖表修改、條件格式、數據驗證等，還能一次性處理多步驟操作。

8）Claude in PowerPoint 上線。能讀取你已有的模板、字體和母版，保持品牌風格一致，然後直接幫你生成完整的 PPT。

大家對 Opus 4.6 也是一致好評，不少早期測試的公司都表示 “用了回不去”，Cursor 官方説 Opus 4.6 是他們內部長任務測試中的最強模型，Replit 説它的任務拆解和並行規劃能力有了巨大飛躍。

GPT-5.3-Codex：OpenAI 的編程殺手鐗

再看 OpenAI 這邊。這次發佈的 GPT-5.3-Codex，劍指 最強編程 Agent，而且不只是寫代碼，還能像你的同事一樣邊幹活邊和你溝通。

相比 Claude 官方連發好幾個帖子介紹自家新模型，OpenAI 官方這邊則低調不少。Sam Altman 親自在 X 上喊話：

來看看具體有什麼：

1）編程跑分全面領先。SWE-Bench Pro 57% 和 TerminalBench 2.0 77%，編程相關基準都創了新高。尤其是 OSWorld（測試 AI 在真實桌面環境中完成任務的能力）直接從上一代的 38.2% 飆到 64.7%，這個提升幅度相當炸裂。

2）速度更快、更省錢。完成同樣的任務，token 消耗量不到上一代（5.2-Codex）的一半，而且每個 token 處理速度還快了 25%。又快又省，這才是實實在在的體驗提升。

3）邊幹活邊彙報。以前你丟一個任務給 AI，只能乾等結果。現在 GPT-5.3-Codex 會在工作過程中實時告訴你它在做什麼、做到哪了，你隨時可以插嘴調整方向，就像真的在和一個同事協作一樣。

4）超強的前端開發能力。官方直接展示了讓它做賽車遊戲和潛水遊戲的效果，完整度高得離譜，有多個地圖、道具系統和完整的遊戲邏輯。

生成普通網頁時 AI 也更懂你的意圖了，默認就能給你做出功能更豐富、設計更合理的頁面。

5）電腦操作能力增強。不只是寫代碼，它還能像人一樣操作電腦完成各種任務，比如做 PPT、分析數據、處理表格，把編程 Agent 的邊界擴展到了全能打工 Agent。

6）自己訓練自己。OpenAI 團隊説 GPT-5.3-Codex 是第一個 參與了自身創造 的模型。團隊用它的早期版本來調試訓練過程、管理部署、分析測試結果。也就是説，AI 在加速 AI 自身的進化，以後的進化速度肯定會越來越快。

7）網絡安全能力大幅增強。這是第一個被 OpenAI 歸類為高能力網絡安全模型的版本，能主動發現代碼漏洞。OpenAI 同時承諾投入 1000 萬美元 API 額度支持網絡防禦研究。

我的看法

這次兩家巨頭同時發佈新模型，互相貼臉開大，對我們用户來説是好事。可以看到，這兩個模型都在往 實用方向 猛卷，是真的想讓你日常工作中用得上。

這兩個大模型應該如何選擇呢？

簡單對比一下：

Claude Opus 4.6 是六邊形戰士，編程、辦公、研究樣樣行，特別是在 Excel、PowerPoint 這些辦公場景裏做了很深的整合。
GPT-5.3-Codex 把編程能力拉滿，在代碼生成、任務執行和人機協作上打出了差異化優勢。

不過我估計網絡和價格就已經勸退一大波國內用户了，如果你只是日常學習、或者做做工具類小項目，也不必盲目追求國外的大模型。很快 DeepSeek V4 等一系列國產大模型應該就要出來了，期待一波~

程序員魚皮博客

程序員魚皮博客

博客 / 詳情