作者:尤洋,新加坡國立大學 校長青年教授,潞晨科技 創始人。
轉載自:https://zhuanlan.zhihu.com/p/1989100535295538013
2026年已至。在ChatGPT誕生三年多後的今天,關於我們的智能水平是否令人滿意,以及未來是否還能強勁增長,筆者想分享一些個人的看法。如有謬誤,懇請大家指正。
為了能深入探討智能的本質,本文將不涉及產品易用性、成本等商業化或落地問題,因為這些本質上與智能突破本身無關。
1. 智能的現狀
什麼是智能?其實目前並沒有一個明確的定義。
從最近圖靈獎得主 Yann LeCun 和諾貝爾獎得主 Demis Hassabis 關於 AGI 的爭論中,我感受到即便是世界上最頂尖的專家也無法準確定義智能。
個人感覺,AGI 很難定義,其標準也會隨着時代的變化而變化。我依然記得十幾年前,普通人對人臉識別技術感到不可思議。如果把今天的 ChatGPT 拿到 2006 年,相信那時候的很多人會毫不懷疑地認為我們已經實現了 AGI。
我覺得智能的核心是預測和創作。
我認為如果達到以下這種狀態,那麼就離 AGI 不遠了:
- 如果你選擇接受哪個工作 Offer,完全聽從 AI 的意見。
- 如果你買足球彩票預測世界盃冠軍,完全聽從 AI 的意見。
- 如果你有健康問題,會完全採用 AI 制定的方案去治療。
- 你分辨不清楚一部奧斯卡最佳電影是否是由 AI 生成的。
- 石油公司的勘探團隊用 AI 替代了所有數值算法。
- AI 能指導初級高鐵工程師在 5 分鐘內排除高鐵的疑難故障。
- AI 能研製出一款專殺癌細胞且不破壞好細胞的藥物。
- AI 能通過某區域的地下結構數據,精準預測地震的時間。
- 等等……
今天,我們顯然還沒實現這些。未來能否實現,取決於我們能否克服智能發展的瓶頸。
2. 智能發展的瓶頸
今天,我們經常聽到一些關於智能發展遇到瓶頸,或者預訓練紅利已盡的觀點。何為瓶頸?我們先探討一下智能從何而來。
過去10年,AI 大模型的技術本質,是把電力能源通過計算過程轉化為可複用的智能。技術的好壞取決於這個轉化效率的高低。類似的表述,我也聽月之暗面的朋友提及過。
今天模型的智能本身,最主要還是來自預訓練(往往是自監督方法),僅有少量來自微調或強化學習。
為什麼?先算一筆淺顯的經濟賬:因為預訓練消耗的算力最多,消耗的能源也最多。
當然,預訓練、微調、強化學習本質上都是在計算梯度以更新參數。如果有合適的海量數據和 Loss 函數,未來在預訓練階段採用 SFT(監督微調)或特殊的強化學習方法也有可能。
從智能增長的角度,我們甚至不用刻意區分預訓練、SFT 和強化學習。它們的區別主要在於更新參數的次數與規模。從計算本質上看:預訓練、微調、強化學習(比如 GRPO)都是在計算梯度的類似物,並用它來更新參數。
那麼,能源從何而來呢?這就是 GPU 或算力。英偉達在這點上做了最大的貢獻。雖然英偉達有很多先進的技術,比如更強的 Tensor Cores、Transformer Engine、互聯技術(NVLink / 網絡化 NVLink)、軟件棧等,但我先試圖用一句話説清楚英偉達過去幾年在技術上做的最重要的事情,即其 GPU 設計的核心思路。
簡而言之,英偉達過去幾年最重要的路線是:在同樣的物理空間裏堆更多 HBM(高帶寬內存)。
HBM 雖然帶寬很高,但依然是計算核心之外的內存(Off-chip from logic die),與計算核心存在不可忽略的物理距離。為了掩蓋內存訪問延遲,GPU 只能依賴超大的 Batch Size(批處理量)和大規模並行來處理數據。英偉達 GPU 本質上就是一台並行計算機。
因此,英偉達對算法層和軟件層的要求非常明確:必須提供足夠大的 Batch Size 或並行度。
面對英偉達的要求,很多研究團隊都提出了自己的方案。比如 RNN、Transformer、卷積序列模型(CNN for Sequence)等等。甚至有人嘗試用 SVM 來處理大規模序列數據。
那為什麼 Transformer 率先脱穎而出?因為 Transformer 也是一台並行計算機。這裏我引用一下 Ilya Sutskever 的一句話:“Transformers: parallel computers in disguise”,直白的意思是:Transformer 本質上是一個被神經網絡外殼包裹起來的並行計算機。這也是 Transformer 最先能夠顯現智能的核心原因,因為它的並行計算特性完美匹配了 GPU 的並行計算單元。
同時,OpenAI 完美地實現了 Next-Token Prediction 這個 Loss 函數,它給了 AI 大模型近乎無限的訓練數據。理論上 BERT 的 Loss 函數(完形填空和 Next Sentence Prediction)也可以提供近乎無限的數據,但在實踐中,Next-Token Prediction 的效果明顯更好。
我推測,這個 Loss 函數最小化了人類的干預——它不是人為設計的,而是大自然在進化過程中賦予人腦的邏輯。並且,Next-Token Prediction 其實是預測未來,而 BERT 的完形填空其實是把過去的信息和現在的信息串聯起來。這就好比讓一個足球專家根據歷史數據和當天的比賽結果去解釋合理性,幾乎所有專家都能做到;但是,如果讓專家去預測每一場比賽的精準比分,他們會經常出錯。這再次説明了,預測 (Prediction)是智能的核心能力體現,難度遠高於解釋 (Explanation)。
其實我挺佩服 OpenAI 團隊能夠堅持下來的勇氣。2018 年時,BERT 在媒體上的影響力幾乎完全碾壓了 GPT,且當時 OpenAI 的 AI 研發團隊體量跟 Google 比起來微不足道。很佩服他們沒有放棄 Next-Token Prediction,也沒有轉向類 BERT 的訓練方式。真理往往需要時間去檢驗。
同時,以 Transformer 為核心的方案收穫了“一箭雙鵰”的雙重優勢:
- 模型的每層參數量越多,並行度就越高 (Tensor Parallelism)。 所以,只要通信代價不顯著增加,能同時利用的算力就越多。這點需要點贊行業領導者的先見之明。幾年前,我看到 CNN 時代有研究人員試圖把模型往深度發展,比如設想 1000 層的神經網絡。其實非常深(層數非常多)的神經網絡是不利於有效利用算力的,因為流水線並行提供的並行度上限不高。
- Transformer 的不同 Token 可以同時計算。 序列長度越長,並行度就越高,只要通訊代價不顯著增加,能同時利用的算力就越多。Sequence Parallelism 與 Data Parallelism 互補,進一步提供了更多的並行度。
就這樣,我們見證了 GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini 一步一步把智能提升到了今天的高度。
到這裏,大家大概也清楚為什麼 AI 模型的智能增長會遇到瓶頸了——因為我們現在的範式無法充分消化持續增長的算力。
假定一次模型訓練和微調消耗的浮點數計算次數(即程序員面試中的計算複雜度的具體值)從 10^n 變成 10^{n+3} 時,我們是否獲得了一個顯著更好的模型?
其實,很多時候我們把“效率優化技術”和“智能提升技術”混淆了。比如,明天我提出一個新的架構,實驗發現達到跟 GPT-5 類似的效果,只需要 20% 的參數量或計算量。這其實更多是落地或商業化問題;智能的終極問題是:使用同樣的浮點數計算次數(而非 Token 量),能否獲得一個更好的模型。 浮點數計算次數,才是算力最基本、最本質的計量單位。
3. 未來的方法探討
首先從硬件層來看,我們需要持續產生更大的絕對算力,這不一定侷限於單位芯片上的算力提升。
即便單位芯片上的算力沒有大幅度提升,我們通過集羣的方式也能構建更大的絕對算力。這裏需要平衡的是:聚集芯片帶來的性能增長,要高於“芯片或服務器之間通信增長帶來的負擔”。
所以,具體的硬指標就是:增長或至少維持住“計算開銷/通信開銷”這個比值。這是整個 AI 基礎設施層最核心的技術目標。要想實現這個目標,我們需要擴展性更好的並行計算技術,無論是軟件還是硬件。
在更上層的探索中,我們需要讓 AI 模型在單位時間內“吃下”更多能源,並真正將其轉化為智能。個人感覺大概有以下幾點方向:
- 更高精度的計算能力。 今天,從 FP16 到 FP32,甚至 FP64,模型智能並未出現明顯躍升。這本身就是一個瓶頸。理論上,更高精度應當帶來更可靠的計算結果,這一點在傳統科學計算中早已得到驗證。這個觀點可能與主流機器學習共識並不一致,而且真正發生可能需要很長時間,但從本質上看,智能仍然需要更精準的計算。這與過擬合併無直接關係,過擬合的根源在於數據規模不足或參數與數據不匹配。
- 更高階的優化器。 Google 的朋友告訴我,他們有時候已經不用類 Adam 優化器,而是用更高階的優化器在訓練模型。高階優化器理論上能在學習過程中給模型更好的指導,算出更好的梯度,這是模型智能提升的本質。當然,高階優化器的全面替代可能需要很長的時間。
- 擴展性更好的模型架構或 Loss 函數。 我們仍然需要一種擴展性更好的整合和利用算力的方式。這點我們需要注意:優化效率不一定能提升智能。比如 Mamba 出來的時候,宣傳重點是吞吐量的提升,用更小的模型獲得同水平的智能。但是,本文關注的是:在最健全的 AI 基礎設施上,用最大的可接受成本,能否訓出更好的模型,獲得更高的智能。比如,今天 Google 告訴你:預算 300 億美元,半年內給我訓出一個更好的模型,不考慮省錢問題,花 10 億和花 100 億沒區別。在這個場景下,你最終是否會用 Mamba 這樣的架構?你是否需要設計更好的 Loss 函數?
- 更多的 Epoch 和更好的超參數。 迫於成本壓力,我們今天其實並沒有對 AI 模型進行深度優化,甚至沒有深度搜索超參數。這其實也是我之所以對 AI 模型的智能繼續增長有信心的原因。我這裏的意思不是直接訓練更多的 Epoch。明知無效卻生硬地跑更多 Epoch 其實是方法不對(比如參數量和數據量不匹配)。但是,根本上,更多的 Epoch 代表更多的浮點數、更多的能源。我們需要找到方法去“吃下”更多能源,並轉化出更高智能。
有些技術對大規模落地 AI 非常重要,比如低精度訓練、剪枝、量化、蒸餾、PD 分離等推理優化技術。但是,在一個“算力轉智能”極端有效的情況下,這些技術跟提升智能上限無關。筆者對這些技術的貢獻者非常尊重,它們在實際落地中至關重要,只是與本文探討的主題無關。
智能增長歸根到底還是算力利用問題。假定算力無限大,比如一個集羣的算力達到今天的萬億倍,可能我們會發現更簡單的模型結構比 Transformer 和 Next-Token Prediction 的擴展性更好。從 SVM 到 CNN、LSTM、BERT、GPT、MoE:我們始終在尋找能更高效利用算力且具備更好擴展性的方法。這個過程中,核心原因是問題的規模在不斷擴大。
我們在 AI 時代到來之前便已實現天氣預報,然而至今仍未能攻克地震預報,儘管兩者本質上都是針對地球數據的研究。究其原因,地下結構涉及比大氣更加錯綜複雜、且變量規模呈指數級龐大的動態多模態數據。這種傳統計算模式難以駕馭的高維複雜性,恰恰是未來 AI 技術大有可為的機遇所在。
所以,我有信心我們未來會不斷找到更高效的算力使用方式。雖然過程中可能會有很多困難和低潮,但大趨勢不可阻擋。
最後,借用 Richard Sutton 教授的一句話收尾:人工智能 70 年的研究留給我們最大的經驗教訓是,依託計算能力的通用方法才是最終的贏家,且具備壓倒性的優勢。