9月初的2025世界智能產業博覽會期間,中科曙光協同AI芯片、AI整機、大模型等20多家產業鏈上下游企業,共同發佈了國內首個AI計算開放架構,被外界解讀為國產智算的“安卓模式”。
一個禮拜前的世界互聯網大會烏鎮峯會期間,中科曙光發佈了採用AI計算開放架構的全球首個單機櫃級640卡超節點scaleX640,標誌着國產智算生態從架構層開放走向了工程級落地。
相比封閉生態,開放的產業生態系統更加複雜,需要更多的開發者參與其中,而人才一直是整個產業的短板。能否培養出產業需要的人才生力軍,直接關係到國產AI生態的發展進程。
草蛇灰線,伏脈千里。
時間回到2020年,中科曙光聯合國家先進計算產業創新中心和一眾知名高校、企業、學術機構共同籌辦了第一屆先導杯。和常規賽事最大的不同,“以實踐為導向”始終是先導杯的鮮明標籤,緊跟前沿創新和產業痛點,在高校和產業間搭建了一座橋樑。
剛剛結束的第六屆先導杯上,來自三個參與者的故事,終於讓外界讀懂了中科曙光多年的堅持:並非是一個割裂的賽事,正在用“教學訓賽”的綜合培養模式,為中國AI產業培養後備力量。
01 “我們要解決人才的斷層”
山東科技大學的王威,目前在計算機科學與工程學院參與相關領域的研究工作。在此之前,他擁有國家超算中心多年的工作經歷。
橫跨產業界和學術界的“兩棲”經歷,讓他對中國AI和高性能計算領域的人才現狀,有一種旁人難及的清醒認知。“最大的難點之一,就是人才培養和產業需求之間,存在一個斷層。”
王威在採訪中多次提及“人才斷層”,人工智能和高性能計算日新月異,而多數高校的教學內容還停留在課本上面,與產業界的真實場景嚴重脱節。結果就是,產業界迫切需要能“直接能夠在國產平台上深度參與項目”的人才,高校畢業生卻需要“一個很長的學習週期”才能真正上手。
作為第六屆“先導杯”ONNX Runtime算子優化賽題的出題人,王威瞄準了“脱節的斷層”。
在賽題設計上,王威坦言:不是一道“練習題”,而是產業界公認的一個“硬骨頭”。要求參賽學生基於海光DCU和ONNX Runtime推理框架,在確保輸出精度滿足誤差標準的前提下,針對Attention、BatchNormalization、Conv、LeakyReLU、GroupNormalization核心算子進行性能優化。
背後有着雙重考量。
第一是考驗學生們的“複合能力”。絕不是簡單的編程任務,直接把負載均衡、顯存壓力、通信瓶頸等技術壁壘拋給了學生。
參賽學生不能再像過去那樣只停留在書本概念上,必須打通一條完整的技術鏈路:首先要把“計算機體系結構中所學的核心知識”真正用上;其次要具備在國產軟硬件生態上調試的“工程能力”;最後還要在高強度的試錯和優化中,磨鍊出解決複雜問題的系統思維。
第二是關乎未來的“職業啓蒙”。在“自主可控”的戰略下,發展國產AI生態已是必然,但生態的繁榮,歸根結底靠的是“人”。
作為高性能計算領域的研究者,王威深知底層優化工作的“枯燥”,“可能三年才能入門,五年才剛剛有感覺。”把真實的產業難題交給學生,希望他們從過去“站在教科書外看概念”,變成“直接調試產業難題的人”,認識到國產AI生態的瓶頸和機會,進而“主動去探索”“深入去學習”。
讓王威印象深刻的是,“有時候凌晨一兩點,學生們還在問問題”,“去年參加先導杯的本科生,比賽結束後毅然選擇攻讀高性能計算方向的研究生”,“不少學生參加比賽後,找到了努力的方向”……
在國內的高校中,像王威這樣的“佈道者”還有很多,他們用源自內心深處的熱愛,在學生們心中埋下了投身國產AI生態的種子。當越來越多的種子生根、發芽、開花、結果,曾經制約產業繁榮的人才斷層,將被一批批具備工程實操力、系統思維的新生力量“填平”。
02 “打了場從零開始的硬仗”
山西大學的大二學生王嘉宇,是王威老師特別提到的一位選手。在第六屆“先導杯”的決賽入圍名單中,對比諸多名校的碩士乃至博士團隊,剛讀大二的王嘉宇無疑是個特例。
因為底層系統人才缺口較大,且存在人才培養標準不一、教育資源分佈不均等問題,先導杯在2024年首次面向本科生開放報名,並創新引入了區域賽模式,面向西北、東北等地區開賽。
來自中西部高校的王嘉宇團隊,沒有被“相對有限的技術資源”束縛,用實打實的成績證明了先導杯推動教育公平、賦能多元人才的價值。
大多數同學跟着學校課程按部就班時,王嘉宇就主動報名參加了學校的“超算隊”。雖然日常訓練使用的是學校所能提供的早期算力資源(例如英偉達V100),正是這份來之不易的機會,為王嘉宇打開了邁向超算世界的第一扇門,鍛造了在比賽中面對全新平台時的適應力和衝刺力。
王威老師設計的ONNX Runtime算子優化賽題,對王嘉宇團隊來説,不亞於是一場從零開始的“硬仗”。
“儘管中科曙光提供的文檔和接口兼容性很高,遷移過程並沒有想象中艱難,在比賽開始時還是走了一些彎路。由於硬件差異,需要針對海光DCU做更精細的調整,結合算子原理和硬件參數綜合優化,導致早期的性能表現不太理想。”
初期的不順利,並沒有嚇退王嘉宇團隊。
他們花了很長時間學習中科曙光提供的培訓課程,在線上積極和其他同學溝通,在技術社區內找資料,遇到不懂的問題就向出題老師請教,乃至整個國慶假期都在實驗室“刷性能”。最終找到了算子性能優化的正確路徑:“我們發現性能瓶頸更多來自訪存而非計算,重新定義了warp大小,並嘗試使用warp shuffle優化attention中的歸約性能……”
整個採訪過程中,王嘉宇每每提到第一次把attention、卷積跑通的細節,言辭中都難掩心中的興奮勁兒。在他看來,比賽的意義不在名次,在於一次次“啃硬骨頭”的過程,一點點去推敲每個性能指標背後的邏輯,看到性能指標不斷被刷新,有一種“升級打怪”的快感。
也讓我們見證了這支年輕團隊強大的自驅力:沒有因“平台不熟悉”止步,而是將挑戰視為學習的機會,並在比賽過程中形成了問題建模、性能分析、參數迭代、算子驗證的工程能力。
王嘉宇團隊的故事不會是個例,折射出的是國產AI生態加速成熟的縮影:當先導杯為中西部高校學生搭建起通向前沿技術的舞台,他們能夠近距離接觸國產智算平台和產業真實問題,在真實的工程環境中驗證理論、打磨能力,會有更多潛藏的年輕力量被看見。
03 “國產生態需要我們參與”
如果説王嘉宇是憑藉興趣和自驅力扎進來的“初生牛犢”,國防科技大學的研二學生朱天賜,則是一個“身在局中”的“準工程師”。國防科大的薰陶、“天河超算”的驕傲,在他心中種下了“使命導向”的擔當。
早在本科階段,朱天賜就做過一款手語識別應用,在比賽中拿到了不錯的名次,限於算力和數據集的瓶頸,最終沒有實現推廣應用。那段經歷讓他意識到:沒有智能算力的土壤,應用將無法真正紮根。
不同於王嘉宇從零開始的啓蒙,朱天賜作為隊長參加了GMRES和ONNX兩道賽題的角逐,想要深入瞭解國產AI生態的真實痛點。
“之前在學校課程學的是碎片化的知識,知道什麼是體系結構、並行計算、內存帶寬等概念,就像是零件盒裏的螺絲、齒輪、彈簧,並沒有組裝成能夠運行的機械。通過先導杯的比賽,第一次把碎片化的知識,變成了解決實際問題的系統化能力。”
朱天賜遇到的第一個難題是優化“矩陣向量乘”算子,一個看似基礎但極度考驗體系結構理解的任務。
由於“矩陣向量乘”算子的性能瓶頸在於訪存,海光DCU的Wavefront是64線程,和英偉達的32線程不同,意味着以前的優化習慣、經驗參數不再適用,需要重新思考數據如何分塊、訪存如何對齊、調度如何設計。
為了解決這些問題,朱天賜和隊友們一遍遍跑實驗、畫訪存路徑、調tile size、做規約策略對比。有時候性能曲線不達標,就從硬件特性倒推數學計算、從數學表達式反推訪存行為、從訪存行為再反推並行策略……“純理論不會直接帶來性能提升,真正能提升性能的,是把理論轉換成工程路徑的能力”。
“硬核”的比賽過程,讓朱天賜對國產AI生態有了更深刻的認知:國產算力平台的性能成熟度超出了預期,而且上手門檻比較低,但體系還不夠完善,仍需更多開發者參與和打磨。
親自上陣填補“缺口”經歷,悄然影響了朱天賜的“自我定位”:以前,他更多站在知識體系的外環,作為旁觀者學習別人怎麼做;現在,意識到自己正處在國產AI生態的前線,是需要主動“補位”的那羣人。
談到畢業後的職業規劃時,朱天賜堅定表示:將從事算子優化、編譯優化等方面的工作,為國產AI生態的繁榮添一塊磚。
04 寫在最後
過去十年,中國的AI生態解決了“有沒有”的問題。未來十年,問題將變成——“誰來用、誰會用”。算力、架構、模型都可以通過技術迭代逐步補齊,唯有人才,是決定生態上限的“不可替代變量”。
先導杯的價值,在於把產業最真實的需求、最難啃的技術點、最具挑戰性的任務,提前放到了年輕人面前,讓他們在最初的職業啓蒙階段就認識到:國產AI生態不是某一家廠商、某一所高校的戰役,而是一場面向未來的長期工程,需要更多“敢打硬仗”的建設者加入。
有理由相信,最終改變國產AI生態曲線的,不是某一代架構、某一次發佈會,而是被點燃的年輕力量。