雲原生計算基金會(CNCF)宣佈 Dragonfly 正式畢業。Dragonfly 是一個開源的鏡像和文件分發系統,旨在解決以 Kubernetes 為核心的雲原生大規模鏡像和文件分發問題。
CNCF 首席技術官 Chris Aniszczyk 表示:“Dragonfly 的畢業反映了該項目的成熟度、廣泛的行業採用以及在擴展雲原生基礎設施方面的關鍵作用。尤其令人興奮的是看到該項目在鏡像加速和 AI 工作負載數據分發方面的價值。我們很自豪能夠支持一個不斷推動可擴展、高效和開放的社區。”
技術能力
Dragonfly 提供高效、穩定、安全的數據分發和加速能力,基於點對點(P2P)技術。它旨在成為雲原生架構中的最佳實踐和標準解決方案,以提高文件、容器鏡像、OCI 製品、AI 模型權重、緩存、日誌和依賴的大規模分發能力。
Dragonfly 運行在 Kubernetes 上,通過 Helm 安裝,其官方 Chart 可在 Artifact Hub 上下載。在可觀測性上依賴 Prometheus 和 OpenTelemetry 的能力,基於 gRPC 實現各組件間快速通信。通過預熱功能增強 Harbor 分發鏡像以及 OCI 製品的能力。在 GenAI 時代,隨着模型服務變得越來越重要,Dragonfly 支持高效分發由 ModelPack 定義的 AI 模型製品。
Dragonfly 持續推進大規模容器鏡像分發,在生產環境中每天支持千萬級別的加速容器啓動,節省高達 90% 的回源帶寬,並將啓動時間從分鐘級縮短到秒級,在雲原生場景中被大規模採用。
Dragonfly 還在推動 AI 模型權重分發以及 AI 工作負載的鏡像佈局優化。該技術顯著減少了大規模 AI 工作負載的數據加載時間,能夠在分鐘級別將百 TB 級別的 AI 模型權重分發到上百節點。隨着 AI 技術持續發展,Dragonfly 在加速大規模 AI 工作負載交付方面發揮着至關重要的作用。
畢業里程碑
Dragonfly 於 2017 年 11 月由阿里巴巴集團開源。隨後於 2018 年 10 月作為 Sandbox 項目加入 CNCF。在此階段,Dragonfly 1.0 於 2019 年 11 月達到生產就緒狀態,Dragonfly 子項目 Nydus 於 2020 年 1 月開源。Dragonfly 隨後於 2020 年 4 月進入 Incubation 階段,並且 Dragonfly 2.0 於 2021 年發佈。
此後,社區已顯著成熟,吸引了來自螞蟻集團、阿里雲、字節跳動、快手、英特爾、Datadog、智譜 AI 等組織的數百名貢獻者。
自加入 CNCF 以來,貢獻者增長了 500%,從 5 家公司的 45 人增長到超過 130 家公司的 271 人。Commit 增長超過 3,000%,從約 800 次 Commit 增長到 26,000 次,總參與者人數達到 1,890 人。
未來規劃
未來 Dragonfly 會基於 RDMA 加速 AI 模型權重分發,提高吞吐量並降低端到端延遲。同時優化鏡像佈局以減少大規模 AI 工作負載的數據加載時間。增加基於負載感知的兩階段調度,使用調度器和客户端共同協作提升整體分發效率。為提供更加穩定可靠的服務,Dragonfly 會支持自動更新和故障恢復,並在突發流量的情況下保證各組件穩定運行,並控制回源流量。
畢業流程
為了正式從孵化階段畢業,Dragonfly 團隊優化了選舉策略、明確了維護者生命週期、規範了貢獻流程、定義了社區階梯,併為子項目添加了社區指南。畢業過程得到了 CNCF 技術監督委員會(TOC)贊助者 Karena Angell 和 Kevin Wang 的支持,他們與 Dragonfly 項目維護者一起進行了全面的技術盡職調查。
此外,還對項目進行了第三方安全審計。Dragonfly 團隊完成了自我安全評估以及與 CNCF TAG Security 的聯合安全評估,並與 Dragonfly 安全團隊合作制定了威脅模型,改進了項目的安全策略。