雲原生熱點
Kubernetes v1.34 正式發佈
近日,Kubernetes 正式發佈了 v1.34 版本,代號“風與意志”,這是2025年的第二個大版本更新,包含58項功能改進,其中23項升級為穩定版、22項進入測試版、13項進入alpha階段,且沒有引入任何破壞性變更。
該版本主題“風與意志”寓意社區力量推動Kubernetes持續發展,核心功能包括動態資源分配(DRA)正式GA,提供更靈活的GPU等設備管理;ServiceAccount令牌用於鏡像拉取認證進入beta,提升安全性;生產級追蹤功能穩定,增強可觀測性;調度與資源管理增強,如Pod級別資源請求和限制進入beta、異步調度器API調用進入beta等;安全性與運維改進,如結構化認證配置穩定、基於選擇器的細粒度授權穩定等;工作負載管理增強,如Job替換策略穩定、Deployment引入類似策略等。對於升級用户,建議在測試環境驗證兼容性、關注特性門控變化、查看API遷移指南並備份數據,Kubesphere團隊也已啓動對該版本的兼容性測試。
vLLM 社區原生支持 HAMi,推理效率飛躍
vLLM 社區通過 PR#579 原生支持 CNCF Sandbox & CNAI Project HAMi,提升了大模型推理的GPU資源利用率和部署靈活性。本文詳細描述了vLLM與HAMi的結合點、社區驅動的融合背景、以及如何在Kubernetes 中通過安裝和配置 HAMi 與 vLLM 實現多模型部署與資源複用的完整過程,包括安裝步驟、資源配置、功能測試和結果驗證。最後,展望了 HAMi 在未來模型推理部署中的應用前景,並提供了社區交流的相關信息。
技術實踐
文章推薦
理解 AI on K8s
CNCF 大使劉訓灼探討了在雲原生時代,Kubernetes(K8s)作為資源管理的事實標準,如何在AI大模型快速發展的背景下應對構建AI基礎設施的獨特挑戰。文章從計算、存儲、網絡和調度四大核心要素出發,分析了運行AI大模型的K8s集羣與普通K8s集羣的區別,重點討論了異構資源管理(如GPU、NPU等)的挑戰及解決方案,介紹了Device Plugin機制及其演進;在存儲方面,強調了分佈式緩存系統(如JuiceFS)在加速海量數據訪問中的作用;在網絡方面,探討了單機多卡和多機多卡架構中的高性能通信技術(如GPUDirect、RDMA等),以及如何通過這些技術提升AI訓練和推理的效率。最終,文章總結了構建高效AI on K8s平台所需關注的核心競爭力與技術要點。
優化 Docker 鏡像體積的深度分析與實踐指南
在 AI 項目的開發中,Docker 鏡像的體積往往被忽視,但它對構建速度、部署效率和雲成本有着直接影響。本文通過分析一個 2.54GB 的 BERT 分類器鏡像,揭示了常見的體積膨脹源,如龐大的基礎操作系統層、冗餘的 apt-get 緩存、以及龐大的 Python 庫(如 torch、transformers、numpy)等。這些因素共同導致了鏡像體積的急劇增加。
為了解決這一問題,作者推薦使用開源工具 dive,它能夠以交互方式展示每一層的文件系統結構,幫助開發者識別和定位體積膨脹的具體來源。例如,dive 可以揭示未清理的 apt 緩存和不必要的文件複製操作,提供“潛在浪費空間”的指標,幫助開發者發現 Dockerfile 中的低效設計。文章還提供了多個優化策略,如使用多階段構建、選擇更精簡的基礎鏡像、合理利用.dockerignore 文件等。
LLM-D:Kubernetes 上的大模型推理優化架構
在 Kubernetes 上運行大型語言模型(LLM)推理任務面臨獨特挑戰,尤其是在資源調度、負載均衡和高效通信方面。傳統的 Web 應用架構無法滿足 LLM 推理對低延遲和高吞吐量的需求。為此,Google 與 Red Hat 聯合開發了 LLM-D(Large Language Model Deployment),這是一個 Kubernetes 原生的高性能分佈式推理框架,旨在優化大模型推理的部署和執行效率。
開源項目推薦
Kong
Kong 是一個開源、高性能且可擴展的 API 網關,自 2015 年由 Mashape 開源以來,它已成為管理和路由 API 請求與微服務通信的核心組件。它構建於 Nginx 和 OpenResty(即 Nginx + Lua)之上,提供插件化架構,使用户能夠通過豐富的官方插件或自定義 Lua 插件輕鬆添加認證、限流、日誌、轉換等功能。Kong 支持多協議(如 HTTP/HTTPS、gRPC、WebSocket),具備高性能、低延遲與橫向擴展能力,適用於從單體應用到複雜微服務架構的各種場景。
Kgateway
Kgateway 是一個基於 Envoy 和 Kubernetes Gateway API 的高性能雲原生入口/API 網關,支持傳統應用、微服務、無服務器及混合架構,具備豐富的認證、限流、請求轉換、安全性與 AI/LLM 路由能力,同時可用作服務網格(ambient mesh)的統一入口。
Koordinator
Koordinator 是一個專為 Kubernetes 設計的基於 QoS(服務質量)的現代調度系統,旨在高效協同運行微服務、AI、及大數據等混合工作負載。它通過彈性資源配額、高效 Pod 打包、資源超賣與隔離、以及干擾檢測和 QoS 管理插件(由 QoSManager 協調),在提升資源利用率的同時保障延遲敏感型服務的穩定性與性能。
KubeSphere 企業版限時優惠火熱來襲!
三重優惠政策:
1️⃣ 免費試用:個人 / 企業均可免費申請 1個月試用 License
2️⃣ 訂閲授權:買一年送一年,再享 9 折優惠
3️⃣ 永久授權:限時 5 折特惠,另贈 2年免費維保
為什麼選擇 KubeSphere 企業版?
🚀 產品力升級:強大全能擴展,企業級可靠性保障
👨💼 專屬守護:客户經理一對一服務,深度優化使用體驗
⚡ 極速響應:5分鐘內開啓保障通道,護航關鍵業務
🌙 全天候護航:7×24小時技術支持,不間斷守護
🔒 主動防禦:定期巡檢,提前排查隱患 & 性能優化
🔥 立即去官網申請試用,解鎖企業級 Kubernetes 體驗!
關於KubeSphere
KubeSphere (https://kubesphere.io)是在 Kubernetes 之上構建的容器平台,提供全棧的 IT 自動化運維的能力,簡化企業的 DevOps 工作流。
KubeSphere 已被 Aqara 智能家居、本來生活、東方通信、微宏科技、東軟、新浪、三一重工、華夏銀行、四川航空、國藥集團、微眾銀行、紫金保險、去哪兒網、中通、中國人民銀行、中國銀行、中國人保壽險、中國太平保險、中國移動、中國聯通、中國電信、天翼雲、中移金科、Radore、ZaloPay 等海內外數萬家企業採用。KubeSphere 提供了開發者友好的嚮導式操作界面和豐富的企業級功能,包括 Kubernetes 多雲與多集羣管理、DevOps (CI/CD)、應用生命週期管理、邊緣計算、微服務治理 (Service Mesh)、多租户管理、可觀測性、存儲與網絡管理、GPU support 等功能,幫助企業快速構建一個強大和功能豐富的容器雲平台。