隨着AI熱潮的不斷髮展,業界已經充分意識到:除了算力卡之外,智算網絡也是決定算力集羣性能的重要因素之一。智算網絡就像算力集羣內部的“神經脈絡”。如果它不能高效工作,哪怕肌肉和大腦再發達,整體的能力都會受到限制。
這些年,圍繞智算網絡技術方案,業界逐漸形成了兩大主流方向:一種是以“GPU + Infiniband(IB)”為代表的私有方案流派;還有一種,是以“魔改”高性能以太網(RoCEv2)為代表的開放方案流派。與此同時,國內算力需求持續快速增長,國產算力生態加速崛起,形態更加多元,出現了更多不同品牌的 GPU、網卡和整機系統。在這種多元化背景下,行業對於“更開放、更易演進、可持續”的網絡底座需求也變得愈發迫切。
正因如此,“魔改以太網”開放方案的陣營正在不斷擴大。這條技術路線不僅保持了成本、生態方面的固有優勢,在性能、可靠性、兼容性等關鍵指標上持續逼近乃至趕超IB。對於國內目前如火如荼的智算基礎設施建設來説,這無疑是一個重大利好。
前段時間,新華三推出了一個很有特色的創新架構智算方案,名字叫做DDC,吸引了整個行業的關注。這個方案,就屬於剛才説的開放方案流派。
説到DDC,可能很多專業讀者會首先想到業界最早提出的“分佈式解耦機框(Disaggregated Distributed Chassis)”。如果它是DDC 1.0,那麼新華三推出的DDC架構,則是在DDC 1.0基礎上的演進升級,全稱叫Diversified Dynamic-Connectivity,多元動態聯接。它同樣屬於分佈式解耦機框的技術路線,但引入了多項關鍵技術創新,在傳輸性能、連接規模、開放解耦、運維簡化等方面都有了巨大的改進提升。
接下來,我們就詳細看看,新華三的DDC方案,到底有哪些黑科技。
● 高帶寬+大規模
新華三的DDC方案包括NCP(網絡處理單元)和NCF(網絡交換單元)兩層,通過Spine-Leaf葉脊架構進行全連接。NCP相當於業務線卡,NCF相當於交換網板,都是獨立工作的盒型形態。
方案對應到新華三的具體產品,是H3C S12500AI系列交換機。NCF有一款H3C S12500AI-NCFN。NCP有兩款,分別是H3C S12500AI-18EP20EP-NCPN、H3C S12500AI-36DH20EP-NCPN。
產品的外型和端口數如下圖所示:
NCP和NCF的端口都支持800G,完全可以滿足當前主流網卡形態的接入需求,帶寬妥妥夠。
規模方面,也很容易計算。單POD組網(DDC單集羣)下,800G信元端口可以分為兩個400G,也就是支持40個NCF和256個NCP,總共支持256(接入設備)*36(接入端口)=9216個端口(400G)。如果是800G的話,就是4608個端口。
這個端口數量,足夠支撐國內絕大多數的智算集羣應用。如果要搞萬卡集羣,就可以採用多POD組網(DDC多集羣),最大可支持8個POD,也就是73728個400G端口(或36864個800G端口)。
● 零擁塞+零波動
接下來,我們來看最關鍵的無損傳輸。也就是説,當智算網絡處於高流量負荷狀態的時候,會不會出現丟包、抖動和擁塞。
眾所周知,AIGC大模型訓練業務對網絡丟包極為敏感,輕則導致吞吐效率降低,重則將使訓練任務中斷。無論是哪一種,都會嚴重影響算力集羣的訓練週期和成本。
新華三DDC方案是如何確保實現零波動、零擁塞的呢?
答案就是以信元轉發為核心的負載均衡機制,以及基於“VoQ(Virtual Output Queueing,虛擬輸出隊列)+Credit”的確定性擁塞控制機制。
大模型訓練場景的流量特點,概括來説,就是大而且雜。因為訓練包括多種方式(例如DP數據並行、PP流水並行、TP張量並行、EP專家並行),每種方式的流量模型不一樣。有的帶寬高(低),有的流數多(少),還經常會高併發、突發。
傳統的ECMP(等價多路徑路由)等負載均衡機制根本無法應對這種複雜流量特徵,流量容易被哈希到同一鏈路,產生擁塞。
新華三DDC方案的做法,是網卡(GPU)側的數據流進入NCP後,切割為等長字節的信元。然後,將這些信元動態、均衡地噴灑到內部交換網絡(NCF)的所有鏈路上。在信元到達出口NCP時,再進行重組。
這就是以信元轉發為核心的負載均衡機制。
再看看確定性擁塞控制機制。
下圖,是傳統非DDC的RoCE方案的擁塞案例,基於PCF(優先級流控制)+ECN(顯性擁塞通知)機制。
具體來説,當Spine1到Leaf9之間的鏈路(黃色線)出現擁塞時,Spine1會逐層向上反壓,向Leaf1發PFC幀。這就會導致Leaf1和Spine1之間端口的相關隊列全部被壓住。這就會影響Spine1到其它Leaf(例如綠色線)的流量。這就是線頭阻塞問題。
在DDC方案裏,就不存在這種情況。
DDC方案的VoQ,是在入口設備上基於不同出端口維護的隊列。當Spine1到Leaf9之間的鏈路出現擁塞時,隻影響基於Leaf9的VoQ隊列。其它VoQ隊列(例如Leaf1到Leaf8)並不受影響。這就避免了線頭阻塞的問題,實現了精準反壓。
這有點像餐廳排號,大桌、中桌、小桌分開排隊,互不影響。
VoQ解決了線頭阻塞問題。那麼確定性的擁塞控制,又是如何實現的呢?這就需要Credit授權控制轉發機制的配合。
可以將Credit理解為令牌。當入向要往出向進行轉發時,會先發授權請求。當出向的帶寬可以保證報文轉發的時候,出口NCP才會給入口NCP發Credit授權迴應,允許流量推送。
Credit有點像餐廳的叫號系統。只有叫號了,才允許進入,就可以避免擁塞。
在以信元轉發為核心的負載均衡機制和基於“Credit + VoQ”的確定性擁塞控制機制的共同加持下,新華三DDC方案能夠實現鏈路利用率100%的負載均衡效果,且充分吸收突發流量,徹底消除DDC網絡內部的擁塞。
經權威機構測試驗證,新華三DDC方案的帶寬利用率絲毫不亞於InfiniBand網絡。
在8台服務器64張英偉達H20 GPU卡,進行NCCL-Test對比測試。All Reduce場景下,DDC性能與IB基本持平。16G數據時,DDC比IB提升了0.27%。All-to-All場景下,256M以下數據對比IB無提升效果。1G以上數據時,DDC性能提升明顯。16G數據時,比IB提升了21.74%。這説明,數據量越大,DDC的優勢越明顯。
● 網卡解耦+多元異構
新華三DDC作為分佈式機框,實現了“物理上的分體、邏輯上的整體”。它就像一個“超級交換機”,前面提到的信元切割、重組,還有VoQ+Credit技術,都是在其內部完成的,不需要網卡的參與。
也就是説,DDC實現了與網卡和GPU的完全解耦。
此外,DDC基於信元的擁塞管理和負載均衡是獨立於IP轉發域的。DDC對不同的流量模型和特徵都不敏感。設備接入DDC後,網卡側也不需要進行專門的調優。
這就意味着,基於DDC架構的智算網絡,可以接入多元算力,兼容性和靈活性更強。對任意流量模型,DDC方案都可以達到最佳負載均衡效果。
正如本文開頭所説,能夠承接多元算力生態,是目前國內發展智算網絡技術的剛性需求。新華三DDC方案可以很好地兼容各個廠商的算卡,給用户組建多元異構算力集羣創造了條件,也可以幫助用户降低成本開支。這為國內AI智算集羣建設提供了一個更理想的選項。
● 極簡部署+極簡運維
新華三DDC方案需要聯接海量設備和異構算力,業務流量大,流量特徵複雜。這給整個系統的運維帶來了很大的挑戰。
對此,新華三推出了AD-DC智算版智能管控分析平台。該平台預設了DDC開局模板,具備一鍵自動上線功能,設備即插即用,無需複雜調優,從而大幅簡化部署流程,可以實現天級快速交付。
通過平台,還可以對整個DDC網絡進行可視化管理,直接掌控全網架構。平台也可以自動檢測設備間的鏈路狀態,如果發現斷連、錯連等異常,就會及時告警,實現可視化定位。
AD-DC智算版智能管控分析平台引入了AI算法進行運維。系統會實時採集設備端口流量、Pause幀等關鍵指標,結合AI算法進行深度分析,精準識別網絡擁塞、異常流量等潛在故障。
在芯片丟包、光模塊故障等方面,AD-DC都有快速診斷能力,可以大幅降低系統運行風險,減少對訓練任務造成的影響。
▉ 開放生態,共建產業標準
最後,我們再來看看DDC的生態。
行業裏的智算網絡方案分為封閉(私有閉源)和開放兩種。業界有一些可提供GPU和網絡方案的廠商,就會通過集合通信庫(CCL)將二者進行捆綁,迫使客户只能選擇整套解決方案。
新華三在設計DDC架構之初,就選擇了“生態開放”的路線。
DDC的控制平面使用標準的BGP EVPN協議,不但實現網元之間自協商、自組網,降低了配置複雜程度,更能支持不同廠商的NCP/NCF實現異構組網。
這幾年,新華三一直堅持這個路線沒動搖。2024年,他們攜手合作夥伴,發佈了OSF(Open Schedule Fabric,開放調度網絡)協議網絡架構,分別在需求場景分析、方案框架定義、技術方案落地等三個方面提交了多篇標準議案,得到了IETF組織的認可。這個架構將調度式網絡架構與傳統以太網絡結合,能夠達到均衡利用網絡資源、故障快速切換等優化目標。
正如前面所説,國內的智算建設具有多元化的特點。所以,開放生態顯然更適合當下的發展趨勢。往小了説,開放生態對用户有利,降低了使用智算算力的技術難度,也減少了成本投入。往大了説,我們國家智算基礎設施的建設佈局,以及整個智算產業和生態的健康發展,都會隨之受益。
▉ 結語
好啦,寫到這裏,相信大家對新華三的DDC方案已經有了充分的瞭解。
智算中心的總投資中,智算網絡投資佔比僅為10%。10%的智算網絡投資將會撬動30%以上算力效能提升。這是一個非常划算的買賣。
這充分説明,在智算時代,網絡已不再是單純的“聯接”。它與計算深度融合,可以發揮“算力×聯接”的倍增效應。
新華三開了一個好頭,通過DDC架構創新,解決了智算網絡在超大規模、極致性能與生態適配方面的難題,不僅為國產化方案樹立了標杆,也為全球用户提供了新的選項。