12月6日,在以“以生態之力·讓OS更懂未來”為主題的 2025 OpenCloudOS 操作系統生態大會上,OpenCloudOS 社區聯動昇騰、海光、AMD、沐曦、崑崙芯、vLLM、SGLang、作業幫以及騰訊雲,共同發佈了 OpenCloudOS Infra 智能基座。這一重磅發佈旨在系統性解決AI應用在異構算力環境下部署複雜、適配成本高等核心痛點,為開發者構建一個一體化、高性能、易部署的AI應用運行底座。
當前,大模型與AI應用已從探索階段邁入高速規模化部署新時期,爆發式增長的AI算力需求與極端碎片化、異構化的底層硬件環境形成尖鋭矛盾。開發者或企業往往需要耗費大量精力在繁瑣複雜的底層環境適配與部署上,這已成為制約企業在AI時代挖掘核心價值、創新產業發展的關鍵因素。
面對這一挑戰,OpenCloudOS 社區確立了“重心在OS,延展至AI”的技術原則,以及“成為' AI時代最好用的OS'” 的目標,聚焦打磨OS內核、調度器、驅動兼容性、安全模塊等傳統優勢領域,為AI工作負載提供獨特的OS層價值,通過三大關鍵舉措和多項技術創新,顯著降低觸及和利用異構算力的門檻,讓開發者或企業能更專注於算法與模型的創新。
三大核心舉措,破解AI基礎設施碎片化難題
深度集成多樣性算力支持:構建統一的多樣性算力生態,是 OpenCloudOS 的核心優勢。當前,OpenCloudOS 9及後續版本,已完成對 NVIDIA、AMD、昇騰、海光、沐曦、崑崙芯等國內外主流AI加速芯片廠商官方驅動及計算棧(SDK)的全面兼容和雙向認證。用户無需再分別前往各芯片廠商官網搜尋、下載、編譯和調試驅動程序,僅需在 OpenCloudOS 上通過標準 yum install 或 dnf install 命令,即可如同安裝普通軟件包一樣,一鍵完成所有底層依賴的部署,極大簡化了混合算力中心的運維管理。
開箱即用的主流AI框架容器鏡像:OpenCloudOS 已通過容器化技術,完成了近20款主流AI框架及智能體(Agent)應用的深度適配、依賴解決和性能優化,並封裝成可直接拉取使用的容器鏡像。用户基於 OpenCloudOS 均可實現“一鍵部署,性能最優”。容器化不僅確保了AI應用運行環境的高度一致性和可移植性,保障了從開發到生產的全鏈路順暢,還大幅提升了效率,將部署時間縮短至“分鐘”級。
雲上無縫集成:智能基座與騰訊雲高性能應用服務(HAI)平台深度融合,並在HAI平台發佈了預集成驅動的 OpenCloudOS 系統鏡像。用户在選擇 HAI 服務時,可直接選用該鏡像,瞬間獲得一個穩定、高性能、無需手動配置的 AI-ready 雲服務器,極大簡化了雲上AI應用流程。
多項自研技術創新,打造高效、穩定、廣兼容的AI應用運行底座
FlexKV——大幅降低推理與延遲:FlexKV是面向超大規模 LLM 推理場景的分佈式 KV Store 與多級緩存管理系統,這項技術通過將大模型推理過程中的 KVCache 逐層緩存至內存、SSD 及雲端擴展存儲(例如 GooseFS),有效解決了規模化推理的顯存瓶頸。在實際應用中,FlexKV 展現出顯著性能優勢。在增強搜索場景下,TTFT(首Token延遲)在高併發下降低了70%;在智能問答助手場景中,對話時延降低了57%。
OC Slimtrace——AI容器小型化鏡像,降低鏡像存儲與傳輸開銷:在AI開發中,容器鏡像因需集成AI框架、依賴庫與完整工具鏈,其體積常高達數十GB,帶來巨大的存儲、分發和啓動開銷。針對這一痛點,OC Slimtrace 通過軟件包切片與動靜態混合依賴分析兩項關鍵技術,顯著優化容器鏡像體積,最大可縮減94%。助力用户實現鏡像拉取速度加快、顯著降低存儲成本,並享受到更敏捷的容器啓動體驗,從而提升AI開發與部署的整體效率。
OC Flip——容器鏡像加速,加快集羣啓動與模型分發:在AI場景下,大規模集羣冷啓動時,常面臨數十GB的鏡像與模型文件需同時拉取的困境。受限於中心倉庫帶寬,往往導致集羣冷啓動時下載緩慢、耗時長,且鏡像拉取時間佔啓動流程比重過高、本地讀取效率不佳。為此,OC Flip(fast lazy image pull)基於優化增強的鏡像懶加載技術,極大提升鏡像分發加載效率,同時保持 OCIv1 鏡像格式、兼容現網鏡像存儲驅動,實現了從“全部下載”到“即用即取”的轉變。50G AI 鏡像 sglang 場景冷啓動(下載+服務運行)時間縮短60%。
OC PkgAgent——智能軟件包自動管理維護:為保障發行版的持續安全與穩定,OpenCloudOS 需要實時跟進上游社區海量的安全補丁與功能更新,為此推出的 PkgAgent 智能體系統,通過AI多智能體協同技術實現軟件包管理的自動化革新,可將單個軟件包處理時間從平均2.5小時縮短至分鐘級,預計每年可節省超過 6000 小時的人力投入,並將漏洞修復的閉環效率提升了91.3%,顯著增強了系統安全性與迭代敏捷性。
OCAI——構建智能運維新範式:針對系統維護技術門檻高、場景複雜、問題診斷碎片化等問題,OpenCloudOS 打造了 OCAI 開放智能體驅動的智能運維新範式。通過 AI Agent 自動化完成系統維護工作流,打通了智能問答、智能診斷和智能調優的全鏈路,大幅提升系統運維效率。
目前,OpenCloudOS 已完成與海光、龍芯、鯤鵬等主流CPU,以及沐曦、寒武紀、燧原等AI加速卡的全面適配,形成了完整的軟硬件生態體系。社區採用 OC8.x 穩定版和 OC9.x 創新版雙版並行發展策略,既保障企業級穩定性需求,又持續推動技術創新。同時,OpenCloudOS 已攜手騰訊雲、安謀科技、沐曦等生態合作伙伴,在AI算力底座、安全運維等領域打造了一系列經過大規模實踐檢驗的解決方案。
騰訊雲副總裁、騰訊蓬萊實驗室負責人、OpenCloudOS 社區榮譽理事郭振宇在大會上表示,騰訊雲將持續投入社區建設,構建安全的軟件供應鏈體系,並開放更多場景資源深化AI生態,攜手生態夥伴將 OpenCloudOS 打造為AI時代下安全、綠色、高性能、高可用的最佳基座。
OpenCloudOS 社區技術監督委員會(TOC)主席王佳強調,OpenCloudOS 的價值在於成為AI基礎設施生態中的“最大公約數”,通過夯實 OS Infra 這一環,降低開發者觸及和利用異構算力的門檻,讓他們能更專注於算法與模型本身的創新。
AI技術從“工具”向“智能體”的演進,正在推動操作系統底層技術重構。OpenCloudOS Infra 智能基座的發佈,標誌着社區在擁抱AI趨勢、以生態之力夯實基礎軟件底座方面邁出了關鍵一步,將為各行各業的數字化智能化轉型提供更堅實支撐。