2025 年 AI 大模型行業最重要的 6 大技術成果

新聞
HongKong
5
07:31 PM · Dec 22 ,2025

“Vibe Coding”之父Andrej Karpathy發表了一篇年度總結《2025 LLM Year in Review》,列出2025年大模型行業最重要的6大技術成果,寫得非常通俗易懂:

1. RLVR(可驗證獎勵強化學習)

今年以前,大模型的主流訓練方案,就那三樣——

1️⃣Pretraining(預訓練),爬完全網數據,學會怎麼預測;

2️⃣SFT(監督微調),找人給模型提供參考答案,推動過擬合;

3️⃣RLHF(人類反饋強化學習),模型生成多個答案,人類打分,讓它開悟;

RLVR提供的新方案,是讓模型去做存在標準答案的複雜數學題,得出結果後再去核對答案,通過這種明確的試錯,模型開始演化出了推理能力。

而RLVR的普及,吞掉了今年的大多數算力消耗,併為使用者新增了「讓模型思考更久一點」的質變按鈕,OpenAI的o1開創了這條路線,到o3則是真正的拐點。

2. 鋸齒狀的智能

今年開始意識到,大模型並不是智能生物,它更像是一種被召喚來的幽靈。

人類的智能,是為了在惡劣的自然環境裏生存下來而持續進化的,但大模型的智能,是為了模仿人類説話、在做數學題時拿到獎勵、為了在基準測試裏考高分而設計的,所以這讓大模型呈現出「薛定諤的聰明」——

一方面可以理解最難的奧數題,另一方面連一個單詞裏有幾個r都數不清楚。

所以基準測試的意義確實不大了,所有公司都在刷題,甚至把訓練都放在特定的數據集上,這麼搞下去,AGI來不了。

3. Cursor

比這款產品的成功更有價值的是,今年有很多AI原生服務開始標榜自己是「xx行業的Cursor」,這意味着大模型在應用層的滲透已經開始了。

Cursor跑通的商業邏輯,是為垂直市場封裝大模型這門生意,像一個產品經理的角色,負責把技術變成即插即用的生產力工具。

未來的搭配可能是這樣的——大模型廠商負責教育出具有普遍能力的大學生,而Cursor這樣的公司則負責把這些大學生培訓成可上崗的實習生。

4. Claude Code

Claude Code是迄今為止最讓人信服的Agent,它運行在本地設備裏,理論上來説,你能用鍵盤和鼠標做什麼事,它也能做到。

對比之下,我會認為OpenAI有點走偏了。

OpenAI太想把一切都塞到ChatGPT裏了,以致於Codex、Agent等新技術都傾向於放到雲端,而不考慮本地部署。

在通用對話框裏完成一切當然很有AGI的感覺,但現實是,我們依然處在一個模型能力不算穩定、上下限差異巨大的中間時刻,端到端的智能體可能是更優解。

這不是説本地和雲端哪邊更好的問題,用户的數據仍然主要存放在本地——代碼、密鑰、上下文、生產環境這些——Anthropic搞對了優先級,把Claude Code放進了一個優雅的命令行界面裏,擺脱了只能用瀏覽器訪問的困境。

能幹活的大模型,就應該變成這樣的「田螺姑娘」。

5. Vibe Coding

這是我在推特上隨口發明的一個詞,沒想到火得不行,此處應有掌聲。

Vibe Coding讓編程不再只是少數專業程序員的特權,任何不懂代碼的人都能駕馭編程能力為己所用,這就叫「權力歸於人民」。

和以前的技術革命不同,這一次,普通用户能從大模型裏獲得的益處要遠遠高於專業人士和大型公司,代碼生產的廉價化,讓我們實現了軟件自由。

舉個例子,我為了找一個Bug,專門通過Vibe Coding寫了一個程序,而它在完成使命之後,就可以被扔掉了,像一張廢棄的餐巾紙。

這會徹底動搖軟件工程師的職位要求。

6. Nano Banana

你們都把Nano Banana當成一個牛逼的圖片模型,但在我眼裏,他是大模型「GUI化」的雛形,直接通向人類與AI交互的圖形界面。

大模型基於語言文本,所以天然喜歡對話格式,但人類不是這樣的,人類是愛發出「太長不看」這種怪叫聲的生物,與費時費力的文本相比,我們更喜歡通過視覺消費信息。

這也是Dos被Windows取代的過程。

未來的大模型,會從自己的舒適區走出來,轉而用人類喜聞樂見的格式來輸出信息,比如圖表、簡報、動畫、網頁這些,Nano Banana是第一個把信息處理和圖像表達融合起來的模型。

這是2025年最難以置信的標誌性事件,沒有之一。

總之,這是一波未平、一波又起的一年,大模型的能幹和愚蠢都遠超出了我的想象,這個行業連10%的潛能都還沒有發掘出來,要做的事情還有很多,記得繫好安全帶。

來源:https://weibo.com/1560906700/5245960041007703

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.