博客 / 詳情

返回

剛剛,Claude Opus 4.6 和 GPT-5.3-Codex 同時炸場!AI 編程要變天了

大家好,我是程序員魚皮。

今天凌晨,AI 圈又雙叒炸了。Anthropic 和 OpenAI 幾乎同時發佈了自家的最新大模型 —— Claude Opus 4.6 和 GPT-5.3-Codex,中門對狙,火藥味十足。

這次兩家是真往編程和實際工作能力上捲了,不是那種 “跑分升了 2 個點” 就發篇博客的敷衍更新。

下面我帶大家快速瞭解一下,這兩個模型到底更新了什麼?對我們程序員和 AI 玩家來説有什麼用?

 

Claude Opus 4.6:更聰明、更能幹、更持久

先説 Anthropic 這邊。Claude Opus 4.6 是目前 Claude 家族最強的模型,之前用 Claude Opus 4.5 編程就已經讓我感覺 “AI 寫代碼無所不能” 了,而這次的 Opus 4.6 在多項評估中均處於最先進水平,包括智能編碼、多學科推理、知識工作和智能搜索等。

光看這個跑分我就賊激動了!

實際上手後,我最直觀的感受就是:幹活更靠譜了

具體更新了這些:

1)編程能力大幅提升:Opus 4.6 能更好地在大型代碼庫中工作,調試和代碼審查能力增強,寫完代碼還能自己檢查錯誤。

我實測了一波,讓之前的 Opus 4.5 和新出的 Opus 4.6 同時開發一個「聚合搜索引擎」項目:

請你幫我開發一個聚合搜索網站,包含完整的前端和後端,能夠同時從多個不同的搜索引擎搜索和聚合結果。
應該先做 MVP 最小可行產品,整個過程不需要向我確認、不需要我提供 API Key,你必須確保功能正常可用。

幾分鐘後,二者都完成了任務:

但是對比一下實際搜索效果,Opus 4.5 完敗,看到這我就放心了,以後我用 AI 編程估計 Bug 更少了~

2)100 萬 token 上下文窗口。Opus 系列第一次支持這麼長的上下文,簡單來説就是你可以一次性給它丟一大堆文件和代碼,它都能記住並理解,不會像以前那樣聊着聊着就失憶了。

這也是我最最最期待的特性,複雜的前後端項目也可以在同一對話框中一把梭了!不用來來回回總結上下文和新開對話框。

贛,準備嘎嘎燒 Tokens 了。

3)128k 輸出 token。輸出長度翻倍,意味着 Claude 可以一次性生成更長的代碼和文檔,不用再拆成好幾次請求了。

4)自適應思考。以前開發者只能手選開啓或關閉深度推理,現在 Claude 會自動判斷這個問題需不需要深度思考。簡單問題秒回,複雜問題慢慢想,智能調節,省時省錢。

5)上下文壓縮。以前跑長任務的時候,AI 經常會撞到上下文長度的天花板。現在 Claude 能自動壓縮和總結之前的對話內容,讓長時間運行的任務不會中途翻車。搭配 100 萬 token 上下文,不敢想象有多持久!

6)Claude Code 支持多智能體協作。你可以同時啓動多個 AI Agent 並行工作,比如讓幾個 Agent 同時審查代碼庫的不同部分,效率直接翻倍。

7)Claude in Excel 大升級。現在能處理更復雜的長時間任務,支持數據透視表、圖表修改、條件格式、數據驗證等,還能一次性處理多步驟操作。

8)Claude in PowerPoint 上線。能讀取你已有的模板、字體和母版,保持品牌風格一致,然後直接幫你生成完整的 PPT。

大家對 Opus 4.6 也是一致好評,不少早期測試的公司都表示 “用了回不去”,Cursor 官方説 Opus 4.6 是他們內部長任務測試中的最強模型,Replit 説它的任務拆解和並行規劃能力有了巨大飛躍。

 

GPT-5.3-Codex:OpenAI 的編程殺手鐗

再看 OpenAI 這邊。這次發佈的 GPT-5.3-Codex,劍指 最強編程 Agent,而且不只是寫代碼,還能像你的同事一樣邊幹活邊和你溝通。

相比 Claude 官方連發好幾個帖子介紹自家新模型,OpenAI 官方這邊則低調不少。Sam Altman 親自在 X 上喊話:

來看看具體有什麼:

1)編程跑分全面領先。SWE-Bench Pro 57% 和 TerminalBench 2.0 77%,編程相關基準都創了新高。尤其是 OSWorld(測試 AI 在真實桌面環境中完成任務的能力)直接從上一代的 38.2% 飆到 64.7%,這個提升幅度相當炸裂。

2)速度更快、更省錢。完成同樣的任務,token 消耗量不到上一代(5.2-Codex)的一半,而且每個 token 處理速度還快了 25%。又快又省,這才是實實在在的體驗提升。

3)邊幹活邊彙報。以前你丟一個任務給 AI,只能乾等結果。現在 GPT-5.3-Codex 會在工作過程中實時告訴你它在做什麼、做到哪了,你隨時可以插嘴調整方向,就像真的在和一個同事協作一樣。

4)超強的前端開發能力。官方直接展示了讓它做賽車遊戲和潛水遊戲的效果,完整度高得離譜,有多個地圖、道具系統和完整的遊戲邏輯。

生成普通網頁時 AI 也更懂你的意圖了,默認就能給你做出功能更豐富、設計更合理的頁面。

5)電腦操作能力增強。不只是寫代碼,它還能像人一樣操作電腦完成各種任務,比如做 PPT、分析數據、處理表格,把編程 Agent 的邊界擴展到了全能打工 Agent。

6)自己訓練自己。OpenAI 團隊説 GPT-5.3-Codex 是第一個 參與了自身創造 的模型。團隊用它的早期版本來調試訓練過程、管理部署、分析測試結果。也就是説,AI 在加速 AI 自身的進化,以後的進化速度肯定會越來越快。

7)網絡安全能力大幅增強。這是第一個被 OpenAI 歸類為高能力網絡安全模型的版本,能主動發現代碼漏洞。OpenAI 同時承諾投入 1000 萬美元 API 額度支持網絡防禦研究。

 

我的看法

這次兩家巨頭同時發佈新模型,互相貼臉開大,對我們用户來説是好事。可以看到,這兩個模型都在往 實用方向 猛卷,是真的想讓你日常工作中用得上。

這兩個大模型應該如何選擇呢?

簡單對比一下:

  • Claude Opus 4.6 是六邊形戰士,編程、辦公、研究樣樣行,特別是在 Excel、PowerPoint 這些辦公場景裏做了很深的整合。

  • GPT-5.3-Codex 把編程能力拉滿,在代碼生成、任務執行和人機協作上打出了差異化優勢。

不過我估計網絡和價格就已經勸退一大波國內用户了,如果你只是日常學習、或者做做工具類小項目,也不必盲目追求國外的大模型。很快 DeepSeek V4 等一系列國產大模型應該就要出來了,期待一波~

 

更多編程學習資源

  • Java前端程序員必做項目實戰教程+畢設網站

  • 程序員免費編程學習交流社區(自學必備)

  • 程序員保姆級求職寫簡歷指南(找工作必備)

  • 程序員免費面試刷題網站工具(找工作必備)

  • 最新Java零基礎入門學習路線 + Java教程

  • 最新Python零基礎入門學習路線 + Python教程

  • 最新前端零基礎入門學習路線 + 前端教程

  • 最新數據結構和算法零基礎入門學習路線 + 算法教程

  • 最新C++零基礎入門學習路線、C++教程

  • 最新數據庫零基礎入門學習路線 + 數據庫教程

  • 最新Redis零基礎入門學習路線 + Redis教程

  • 最新計算機基礎入門學習路線 + 計算機基礎教程

  • 最新小程序入門學習路線 + 小程序開發教程

  • 最新SQL零基礎入門學習路線 + SQL教程

  • 最新Linux零基礎入門學習路線 + Linux教程

  • 最新Git/GitHub零基礎入門學習路線 + Git教程

  • 最新操作系統零基礎入門學習路線 + 操作系統教程

  • 最新計算機網絡零基礎入門學習路線 + 計算機網絡教程

  • 最新設計模式零基礎入門學習路線 + 設計模式教程

  • 最新軟件工程零基礎入門學習路線 + 軟件工程教程

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.