近日,在江蘇崑山舉辦的光合組織2025人工智能創新大會(HAIC2025)上,中科曙光scaleX萬卡超集羣以真機形式首次公開亮相。
這一基於scaleX640超節點系統構建的大規模智能計算基礎設施,不僅在硬件性能上取得重大突破,更基於“AI計算開放架構”系統性解決了當前國產AI算力生態“碎片化、封閉化、適配難”的核心問題,標誌着中國AI基礎設施建設正式邁入“生態共進”的新階段。
作為全球首個單機櫃級640卡超節點,曙光scaleX640採用超高密度刀片架構與浸沒相變液冷技術,將單機櫃算力密度提升至傳統集羣的20倍,同時實現低至1.04的PUE值。由16個scaleX640超節點通過自研scaleFabric高速網絡互連組成的scaleX萬卡超集羣,可部署10240塊AI加速卡,總算力突破5 EFlops。
在此硬件基礎之上,曙光自研原生RDMA高速網絡ScaleFabric,基於國內首款400G類InfiniBand架構網卡與交換芯片,可提供400Gb/s帶寬和低於1微秒的端到端延遲,通信效率較傳統IB提升2.33倍,成本降低30%,不僅釋放萬卡級超集羣算力潛力,更支持集羣規模輕鬆擴展至10萬卡以上。
為進一步打通數據流動瓶頸,曙光通過“超級隧道”與AI數據加速等設計,實現存、算、傳的深度緊耦合與協同優化,從芯片級、系統級到應用級構建三級數據傳輸優化體系,高效應對萬卡併發帶來的極致讀寫與挑戰挑戰,顯著提升高通量AI推理響應速度與結果精準度,並將AI加速卡的資源利用率提高55%。
在高效算力與通信能力之外,曙光構建了超集羣數字孿生與智能調度體系,實現運維全流程可視化與智能化,保障集羣高達99.99%的可用性;智能調度引擎可高效管理萬級節點、服務十萬級用户,支持每秒萬級作業的高併發調度,確保大規模AI業務穩定高效運行。