博客 / 詳情

返回

共建高效算力基礎設施體系,龍蜥大會智算分論壇全回顧

近日,2025 龍蜥操作系統大會在京順利落幕,由阿里雲資深技術專家、龍蜥智算基礎設施聯盟主席宋卓,英特爾中國軟件技術事業部研發總監、龍蜥社區副理事長王慶,龍蜥社區運營委員會副主席、龍蜥智算基礎設施聯盟秘書處負責人金美琴聯合出品的智算新基礎設施分論壇也圓滿舉辦。本論壇以“共建智算新基礎設施”為主題,匯聚了國內外頂尖企業、科研機構及產業生態多方力量,共同探討“雲+智能計算”的前沿技術創新、生態建設和產業前景。
圖片
(圖/現場嘉賓合影)

會議伊始,阿里雲資深技術專家、龍蜥智算基礎設施聯盟主席宋卓發表致辭。當前,全球正加速邁入以人工智能為核心的智算時代,智算基礎設施已成為推動科技進步和產業變革的核心驅動力。依託深厚的技術底藴和開放協作的開源精神,龍蜥社區在穩定性提升、性能優化等方面持續突破,為雲基礎設施的軟件協同優化和複雜的雲場景的支持提供了堅實的底座。未來,圍繞智算新基礎設施的建設仍面臨諸多挑戰,龍蜥社區智算基礎設施聯盟將繼續深耕基礎軟件核心技術,聯合社區夥伴及上下游協同,推動面向“芯片+基礎軟件+模型+應用”的全棧創新,構建高效算力基礎設施體系。
圖片
(圖/阿里雲資深技術專家、龍蜥智算基礎設施聯盟主席宋卓)

清程極智副總裁何萬青博士在主題為《阿里雲龍蜥生態上的赤兔推理與八卦爐性能交付》的分享中介紹,清程極智依託八卦爐 Turnkey 交付平台,實現 Chitu 推理引擎與其他八卦爐訓練加速模塊在阿里雲上的鏡像服務,不僅完成了 PD(計算/存儲)分離架構,並深度集成阿里雲容器 RBG 調度能力,支持大規模 PD 分離部署;同時,在龍蜥操作系統軟件生態環境中,與 Mooncake 等第三方生態組件實現上下層協同,構建起一套端到端、高效可靠的 AI 推理與性能交付解決方案。
圖片
(圖/清程極智副總裁何萬青博士)

IOMMUFD 是一種全新的用户態 API,用於從用户態管理 I/O 頁表,旨在解決傳統 VFIO_TYPE1 在設備直通場景中的多項侷限性。英特爾高級軟件工程師劉肄、阿里雲智能集團技術專家薛帥聯合分享了《Landing IOMMUFD to Anolis》。劉肄詳細介紹了 IOMMUFD 的設計背景、相比 VFIO 的優勢以及上游社區的最新進展。薛帥則分享了 IOMMUFD 在 Anolis OS 6.6 內核中的實踐經驗,包括在 Arm、Intel、AMD、RISC-V 等多架構平台的適配情況,介紹了 QAT 使用 IOMMUFD 加速 VF 熱遷移的優勢。同時也與現場參會嘉賓一起深入探討了實際應用中的挑戰。
圖片

針對當前智算基礎設施在可用性與可靠性方面日益凸顯的挑戰,龍蜥社區智算聯盟 RAS 技術組(TG)負責人、可信計算 SIG Owner 吳保錫在題為《智算基礎設施 RAS 能力增強探索與實踐》的分享中指出,浪潮信息基於龍蜥操作系統,聯合 GPU 廠商與整機廠商,開展多項 RAS(可靠性、可用性、可服務性)關鍵技術攻關。通過這些實踐,不僅顯著縮短了故障定位時間,還有效提升了系統可用性與算力利用率,為大規模 AI 訓練與推理業務提供了堅實穩定的底層支撐。
圖片
(圖/龍蜥社區智算聯盟 RAS 技術組(TG)負責人、可信計算 SIG Owner 吳保錫)

安謀科技主任軟件工程師蔡亦波分享了主題為《在 Arm 平台上優化 llama.cpp 量化模型推理》的技術內容。他系統介紹了在 Arm CPU 上優化 llama.cpp 的實踐路徑,內容涵蓋大語言模型(LLM)CPU 推理的基本原理、llama.cpp 的性能瓶頸分析、量化模型的核心原理,並深入解析了 Arm I8MM 整數矩陣計算指令的技術特性,展示瞭如何通過硬件指令級優化顯著提升 llama.cpp 在 Arm 平台上的推理效率。
圖片
(圖/安謀科技主任軟件工程師蔡亦波)

ModelSight 是龍蜥社區自研 AI 性能分析工具,通過全棧集實現 GPU、CPU 事件一體化觀測。阿里雲智能集團性能分析專家常懷鑫、阿里雲智能集團性能分析專家王鵬在主題為《PAS-ModelSight:端到端 AI 性能分析工具在 Qwen3-235B 大模型推理中的落地實踐》的分享中,介紹瞭如何利用 ModelSight 對 235B 參數的 Qwen3 推理鏈路進行線上壓測、熱點定位與瓶頸可視化,並結合 PD 分離、TP/DP/EP 並行策略在 SGLang 推理框架中的落地,給出 2 倍 token/s 提升的量化結果。
圖片

智算產業如今已成為數字經濟的核心驅動力,大模型訓練對高性能算力需求的爆發式增長,促使算力革命進入全新階段。全球範圍內,超大規模智算集羣建設競爭熾熱化。雲計算與大數據研究所云計算部高級業務主管劉天賜分享了《大規模智算集羣服務關鍵技術及未來趨勢洞察》,圍繞全球超大規模智算集羣發展現狀以及我國在超大規模智算集羣建設核心技術展開深度探討。同時,劉天賜也介紹了中國信通院在智算集羣方面相關工作和見解,為大規模智算集羣的研究與發展提供思路和方向。
圖片
(圖/雲計算與大數據研究所云計算部高級業務主管劉天賜)

中興通訊智算雲底座產品運維域規劃經理柳巍分享了《智算基礎設施運維:架構解析與能力展望》。他聚焦智算基礎設施的運維挑戰,深入剖析了通用計算與智能計算在運維層面的核心差異及當前痛點;系統闡述了面向未來的智算運維目標架構,梳理了覆蓋端到端的運維功能體系,並對“AI+運維”的演進方向與能力升級進行了前瞻性展望。
圖片
(圖/中興通訊智算雲底座產品運維域規劃經理柳巍)

隨着 AI 大模型與智算中心的普及,操作系統需要重構以支撐 GPU 異構算力、統一調度與資源隔離。AMD 產品工程師何亞豪分享了《面向 AI 原生操作系統的算力生態重構:ROCm 7 的演進與實踐》,何亞豪詳細介紹了 ROCm 7 在編譯、驅動、調度和生態層的關鍵演進,包括 PyTorch ROCm,vLLM ROCm,Aiter,MoRI 等開源以及自研軟件棧的集成優化。
圖片
(圖/AMD 產品工程師何亞豪)

感謝本論壇的工作人員:馬騰、賀迪、劉寅、張旭芳。附本論壇的精彩集錦:
圖片
視頻回放鏈接:https://openanolis.cn/openanolisconference2025

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.