2025 年 11 月,備受矚目的龍蜥大會在北京隆重舉行。作為中國開源操作系統生態的重要里程碑,本屆大會匯聚了來自芯片、硬件、軟件及雲服務等領域的頂尖專家與行業代表。會上,阿里雲智能集團高級技術專家沈培以“國產 CPU 平台上操作系統和雲產品性能優化實踐”為主題,系統性分享了阿里雲聯合龍蜥社區以及 CPU 廠商等,在多架構異構計算環境下的深度技術積累與創新成果。
(圖/阿里雲智能集團高級技術專家沈培)
隨着國家戰略深入推進,國產 CPU 加速進入政企核心業務場景。然而,不同芯片架構在微架構設計、緩存佈局、內存訪問延遲等方面的顯著差異,給雲平台的性能一致性帶來巨大挑戰。尤其在阿里雲飛天企業版所支持的“多芯混部”架構下——即在同一雲平台中混合部署多種 CPU——如何保障上層雲產品在各類國產芯片上實現高性能、高穩定、可預期的運行表現,成為行業亟待突破的關鍵課題。
對此,阿里雲依託自研服務器操作系統 Alibaba Cloud Linux(基於龍蜥操作系統 Anolis OS 深度定製),聯合國產 CPU 廠商、龍蜥社區及雲產品研發團隊,構建了一套覆蓋“硬件—操作系統—雲產品”全棧的性能優化體系,並在本次大會上系統地披露其核心技術路徑。
從芯粒架構到 LLC 親和,直面國產 CPU 特性差異
當前國產主流 CPU 普遍採用 Chiplet(芯粒化)架構,雖提升了核心密度與多核性能,卻也帶來了訪存延遲增加、末級緩存(LLC)分片化等新問題。例如,部分國產芯片在一個 NUMA Node 內包含多個獨立 LLC 單元,傳統僅基於 NUMA 節點的資源調度策略已難以發揮硬件潛力。
針對這一挑戰,阿里雲率先在操作系統層實現“LLC 粒度應用親和性優化”。通過精準識別應用所需 CPU 核心數與 LLC 拓撲結構,動態調整進程/線程綁定策略:
將應用關鍵進程/線程優先限制在單個 LLC 共享核範圍內,當應用併發進程/線程數量較多超出 1 個或多個 LLC 時,則最小化跨 LLC 調度,並優先選擇物理距離最近的緩存單元。實測顯示,該優化使雲數據庫 Tair 性能最高提升達 2 倍,PolarDB for MySQL 典型 4C 實例規格在跨 4 個 LLC 到不跨 LLC 情況下性能提升近 20%。
操作系統內核深度調優,釋放國產硬件潛能
為最大化國產平台性能,阿里雲在 Alibaba Cloud Linux 中集成多項源自龍蜥社區的內核級優化特性。其中,“代碼多副本”技術通過在本地 NUMA 節點複製遠端代碼段,有效避免跨節點代碼段訪問,在自研數據庫大規格實例中帶來約 9% 的性能增益;而“代碼大頁”則擴展透明大頁機制,將程序可執行段映射至大頁內存,顯著降低 iTLB miss 率,在中間件場景中開啓透明大頁和“代碼大頁”後實現 80% 以上的性能躍升。
此外,面對 DDR5 內存普及帶來的帶寬提升與延遲增加並存的新局面,阿里雲創新設計“內存親和性資源管理器”,將底層訪存拓撲的遠近關係抽象為可編程接口。雲產品可根據業務需求(性能優先或資源利用率優先)動態選擇最優內存分配策略。在雲數據庫 Tair 中,該優化額外帶來 9%-15% 的吞吐提升。
軟硬協同工程化,打造可交付的性能基線
性能優化不僅是技術問題,更是工程落地問題。阿里雲已將多芯平台的軟硬件配置標準化、工程化,貫穿研發、招標、交付與運維全生命週期。通過建立“多芯軟硬協同最優性能配置基線”,不僅指導服務器廠商出廠預配置,更在客户上線及維保階段部署兩級自動校驗機制,確保軟硬件配置始終處於最佳狀態,杜絕因固件或 BIOS 設置偏差導致的性能劣化。
AI 賦能性能分析,開啓智能調優新時代
值得一提的是,阿里雲正積極探索大模型在性能優化中的應用。藉助 Qwen 等大模型對 Linux 內核的深度理解能力,團隊開發出智能化火焰圖分析流程:自動剝離用户態與內核態調用棧,分別交由大模型解析,快速定位熱點函數並生成優化建議。這一方法大幅縮短了傳統性能調優週期,為人機協同的智能優化開闢新路徑。
共建龍蜥生態,共築國產雲底座
此次分享不僅彰顯了阿里雲在異構計算時代的全棧技術實力,更凸顯了龍蜥操作系統作為國產基礎軟件核心載體的關鍵作用。作為龍蜥社區的發起者與核心貢獻者,阿里雲持續將飛天企業版在真實業務場景中驗證的優化能力反哺社區,推動 Anolis OS 成為兼容多架構、支撐高性能雲原生應用的操作系統基石。
未來,阿里雲將進一步深化與龍蜥社區的合作,推進 KeenTune 等智能調優工具在飛天企業版中的集成,並計劃將性能分析工具在線化,實現對線上應用的實時熱點對比與自動優化,持續縮小乃至超越國際主流平台的性能差距。
在國產浪潮奔涌向前的今天,阿里雲以操作系統為支點,以龍蜥為紐帶,正攜手產業鏈夥伴,共同構建安全、高效、自主可信的雲基礎設施新生態。
—— 完 ——