Stories

Detail Return Return

Datadog發佈雲成本現狀報告:83%的容器支出被閒置資源浪費 - Stories Detail

原文鏈接:https://www.datadoghq.com/state-of-cloud-costs/
編譯:CloudPilot AI

儘管靈活多樣的雲服務為雲成本優化提供了諸多機會,但企業在提升日益增長的雲支出效率時依舊面臨重大挑戰。雲環境的複雜性和動態性主要源於服務的廣度以及企業不斷採用新技術的趨勢,例如支持人工智能的Arm架構處理器和GPU。這些複雜性使企業難以全面掌握導致雲成本上升的各種因素。

在本報告中,Datadog 分析了來自數百家企業的 AWS 雲成本數據,深入探討了新興技術與上一代技術的使用情況、雲資源使用模式,以及參與 AWS 折扣計劃對雲成本的影響。研究結果表明,儘管企業在上述每個方面都存在優化成本的機會,但在這一複雜多變的環境中,識別並實現這些優化仍然具有一定的挑戰性。

Fact 1:GPU實例支出現已佔計算成本的14%

在過去一年中,使用 GPU 實例的企業其相關支出平均增加了40%——從佔用 EC2 計算成本的10%上升到14%。GPU 的並行處理能力使其成為訓練大語言模型(LLMs)和執行其他 AI 工作負載的關鍵工具,其速度比 CPU 快200%以上。

基於 GPU 的 EC2 實例類型通常比非 GPU 實例更昂貴。然而,最廣泛使用的類型——G4dn(被74%的GPU用户採用)——也是成本最低的。這表明,許多客户正在嘗試 AI 技術,將 G4dn 應用於他們在自適應AI、機器學習(ML)推理以及小規模訓練方面的早期探索。我們預計,隨着這些企業擴大 AI 應用並將其投入生產環境,GPU 相關支出將在其雲計算預算中佔據更大的比例。

Fact 2:Arm實例支出佔計算成本的比例在過去一年翻了一番

數據顯示,使用 Arm 架構實例的企業,其 EC2 計算成本中有18%花費在 Arm 實例上,這一比例是去年同期的兩倍。基於 Arm 處理器的實例比類似的 EC2 實例能耗降低多達60%,同時通常能夠以更低成本提供更好的性能。

最常見的 Arm 架構實例類型是T4g,約 65% 的企業選擇使用這一實例。這些實例由 Graviton2 處理器驅動,其性價比相較基於 x86-64 架構的 T3 實例高出多達 40%。

儘管 Arm 架構實例目前在 EC2 計算支出中僅佔少數,但過去一年這一比例持續穩步增長。這表明,企業正開始更新應用程序,利用更高效的處理器來減緩計算支出的增長趨勢。

Fact 3:容器成本佔EC2支出的三分之一

企業將約 35% 的 EC2 計算支出用於運行容器,比去年同期的 30% 有所增長。這其中包括用於自託管集羣的 Kubernetes 控制節點或工作節點的 EC2 實例,以及運行在 ECS 和 EKS 集羣中的實例。在我們分析的所有客户中,大約四分之一的企業將其超過 75% 的 EC2 支出用於運行容器。

我們預計,隨着企業越來越多地受益於容器帶來的效率提升——包括簡化部署流程、更高效的依賴管理,以及基礎設施利用率的優化,用於容器的雲支出比例將持續增長。然而,企業也將面臨新的挑戰,例如如何在動態且共享的基礎設施上準確歸因成本,以及如何以更經濟高效的方式規劃容器基礎設施。

Fact 4:超過80%的容器支出浪費在閒置資源上

研究表明,83%的容器支出與閒置資源相關。 其中約54%的浪費來自集羣閒置,即由於集羣基礎設施的過度配置所產生的成本;另外29%的浪費則與工作負載閒置有關,這是由於資源請求超出實際工作負載需求而造成的。

報告認為,容器支出中的浪費無法完全避免。開發團隊在預測新應用程序的資源需求時面臨諸多困難,這使得資源分配的效率難以提升。此外,資源需求通常會因工作負載的特性(如複雜度)和利用率的變化而波動。

儘管企業可以通過自動擴展集羣基礎設施和單個工作負載來優化資源利用,但自動擴展本身複雜性較高。團隊可以根據工作負載的流量模式調整擴展參數,但這些優化帶來的效率提升通常微乎其微且難以捕捉。

Fact 5:上一代技術仍被廣泛使用

雖然 AWS 當前的基礎設施產品通常在性能上優於上一代版本且成本更低,但我們的數據顯示,儘管企業正在努力實現現代化,在 EC2 實例類型和 EBS 卷類型的使用上,舊技術仍然在許多環境中佔據重要地位。

研究發現,83% 的企業仍然使用上一代 EC2 實例類型,儘管這一比例已較一年前的 89% 已有所下降。這些企業平均將約 17% 的 EC2 預算花費在這些舊實例上。

在 EBS 方面,當前一代EBS卷(gp3)的成本比 gp2 卷低約 20%,但企業在使用舊版捲上的支出仍然較高。gp2 卷的成本佔平均企業 EBS 支出的 58%,較一年前的 68% 有所下降。

我們預計,儘管 gp2 卷在短期內仍會被使用,但隨着時間的推移,企業將逐漸減少對其的依賴。遷移的挑戰——包括遷移大量數據的複雜性、所需的跨團隊協作,以及如何預測工作負載在新技術下的表現——導致遷移進程緩慢。然而,新版 EC2 和 EBS 技術所帶來的成本降低和性能提升——甚至未來的新技術——將繼續成為遷移的持續驅動力。

Fact 6:跨可用區(AZ)流量佔數據傳輸成本的一半

我們的研究發現,平均而言,企業在將數據從一個可用區(AZ)發送到另一個可用區的費用,幾乎等同於所有其他類型的數據傳輸費用,包括VPN、網關、入口和出口流量。在某些場景下,跨AZ流量可能是不可避免的,例如,應用的高可用性架構要求實例部署在多個可用區。這也可能是隨着團隊、服務和應用程序規模的擴大,帶來的不可避免的副作用。

無論成本來源如何,其影響都是顯著的:98%的企業都受到跨可用區費用的影響。這可能表明,幾乎所有企業都有機會通過優化雲成本來提高效率,例如,在可用性要求允許的情況下,將相關資源集中部署在單一AZ內。

在某些情況下,雲服務提供商已經取消了對某些類型數據傳輸的收費。雖然很難預見這些變化將如何演變,但如果提供商進一步放寬數據傳輸費用,未來的跨AZ流量可能會在雲成本優化中不再是一個重要因素。

Fact 7:越來越少的企業使用基於承諾的折扣

雲服務提供商對許多服務提供折扣,例如,AWS 為 Amazon EC2、Amazon RDS、Amazon SageMaker 等提供折扣計劃。大多數企業選擇參與這些計劃,承諾未來產生一定的支出或服務使用量。然而,數據顯示,參與這些計劃的企業比例在下降——去年為72%,而今年為67%。

此外,企業對這些折扣計劃的參與度相對較低——只有29%的企業購買的折扣足以覆蓋其超過一半的雲支出。這種低使用率表明,企業無法完全承諾特定的使用量或支出,可能是因為他們很難準確預測資源需求,導致無法自信地承諾長期使用。

另外,企業在做出折扣購買決策時,也可能面臨責任不明確的問題,難以確定哪些團隊負責這些決策,以及哪些資源受影響。我們認為,這需要進一步優化,大多數企業可以通過更全面地理解雲支出的使用模式,充分利用折扣來降低成本。

Fact 8:使用 Savings Plans 的企業是使用預留實例企業的四倍以上

AWS 用户有兩種方式來降低 EC2 成本:Savings Plans,即用户承諾一定金額的 EC2 支出;和預留實例(Reserved Instances),即用户承諾在特定可用區使用某種實例類型。

Savings Plans 更具靈活性,我們發現,大多數企業(59%)選擇使用 Savings Plans,至少將其用於部分 EC2 支出。使用預留實例的企業則要少得多,只有15%。這可能表明,企業在預測 EC2 支出時更有信心,而對於需要部署哪些實例類型以及在哪裏部署則相對不那麼確定。

公司介紹

CloudPilot AI 是一家全球領先的 Karpenter 託管雲服務提供商,致力於通過智能化、自動化的雲資源調度和編排技術,幫助企業最大化雲資源利用率。我們秉持“讓客户在雲中花費的每一分錢都物超所值”的使命,為客户提升10倍的資源效率,同時將雲成本降低50%以上。

目前,開源K8s彈性伸縮器 Karpenter 已為全球超500家知名企業在生產環境中提供服務,包括阿迪達斯、Anthropic、Slack、Figma等。CloudPilot AI 已為數十家全球頂尖科技公司提供服務,累計為客户節省超過30萬美金,平均節省67%。 選擇CloudPilot AI,讓每一筆支出都更智慧。

免費試用,2步5分鐘,降低50%雲成本:www.cloudpilot.ai

user avatar code4world Avatar portlouis Avatar rancherlabs Avatar
Favorites 3 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.