博客 / 詳情

返回

喚醒 AI 算力,專有云 ABC Stack 面向企業級智算平台的 GPU 提效實踐

從「建好」到「用好」,企業級智算平台藉助專有云 ABC Stack 的 GPU 提效服務,應對大模型業務挑戰,喚醒 AI 算力,加速 AI 原生業務的落地。

01 難以一步到位的GPU效能

當企業的私有化智算平台項目上線一段時間後,用户普遍會反饋 GPU 效能相關的問題:

  • 將全部資源分配給各個業務部門後,集羣全部 GPU 資源的平均利用率在 30% 左右。這個指標處於什麼水平,是否充分發揮 GPU 效能?
  • 大模型訓練的時候,我們會請技術專家排查 GPU 集羣故障問題,有時居然要 2~3 個小時才能搞定,這個時間這麼長,還能縮短嗎?
  • 新平台按照最高的硬件進行配置,但是常有業務線反饋,相比過去的老集羣,智算平台上的任務速度並沒有明顯提升,這是為什麼呢?

那麼,企業遇上這些問題的原因是什麼呢, GPU 效能可以一步到位嗎?

先説結論。根據對不同的企業級智算平台類項目實踐的總結:在平台落地後就處於 GPU 最佳效能的狀態,這是幾乎不可能的。

這些問題的出現和解決,正好體現了企業級智算平台和客户大模型業務落地磨合的過程。

這些問題的原因,有一部分來自於智算平台從無到有,再到大規模 AI 業務落地過程中,智算平台管理部門在不同階段,關注的目標和業務運行環境的變化所致:

  • 在 POC 階段,通常是用若干個典型任務做功能、性能和穩定性測試。這些測試可以提前規劃,可控性更大。整個過程關注的是平台自身能力的評估。
  • 在大規模生產落地階段平台開始承載所有部門的業務,需要考量的維度更加複雜,比如資源如何分配滿足不同業務需要,平台如何正確使用確保業務能夠高效運行等。

另外一部分原因,可能佔更大比例,則是因為企業級客户,在過去已經習慣「小模型」和「老平台」後,面對「新平台」運行「大模型」中,需要有一段學習和適應的時間。

02 從資源管理到任務設置,喚醒AI算力

基於百度在大規模集羣的技術積累和工程實踐,在向企業交付智算平台後,專有云 ABC Stack 還為客户提供了一套面向整體 GPU 算力平均利用率、訓推任務加速和穩定性等場景的 GPU 提效服務。

2.1 調整資源分配策略,提升GPU平均利用率

每個業務部門都期望能夠獲得/儲備更多的 GPU 資源加速自己的 AI 任務速度,也可以免去申請更多資源的時間。不過,智算平台管理部門的目標稍有不同,會更多聚焦於在全局資源有限的情況下,能夠實時按需分配資源,覆蓋全部業務,使得資源利用效率最大化。

為了在「各個部門的業務效率」和「集團整體資源利用率」之間達到平衡,智算平台管理部門需要深入分析不同部門的業務模型,統計過往的任務類型和 GPU 資源使用量等情況,以便找到合適的資源分配策略。

比如,將過去統一把全部資源分發給業務部門的模式,變成把其中一部分資源作為保底資源分發給業務部門,剩餘資源作為所有部門的共享按需調度的模式。其中,本週期內各個部門的保底資源額度,可以按照「上一個週期的統計數據」進行預測,適當進行縮減或者擴大。當通過監控數據發現資源總量不足時,及時進行擴容。

2.1.1 實踐

傳統車企 A 的自動駕駛平台,將智算平台的全部 GPU 資源固定劃分給車輛視覺、雷達感知、數據處理、BEV 等 9 類業務。全部業務上線運行 2 個月後,整體 GPU 平均利用率在 30% 附近波動。

為探索 GPU 利用率是否有提升空間,車企 A 聯合專有云 ABC Stack 共同對各個業務在過去 2 個月的使用情況進行了詳盡的調研,發現全部的節點中:

  • 20% 節點的 GPU 利用率長期不足 1%,這説明這些 GPU 資源幾乎被浪費了;
  • 20% 節點的 GPU 利用率較高,且多次超過 80%。這説明在未來這些資源有一定的超負荷風險;
  • 另有 30% 的節點的 GPU 利用率大幅波動。這説明這些 GPU 存在一定的彈性調度空間。

因此,智算平台管理部門將預設的「整體資源按業務部門固定分配」管理方式,調整為「整體資源按調度方式靈活分配:保底 + 共享」的管理方式。

針對各個業務設置保底 GPU 資源,然後將未劃分的 GPU 算力納入集團公共資源池中,供各個業務方按需調用。同時,為了能夠更好地管理資源,適應業務變化,車企 A 成立了 GPU 資源管理專委會,每兩週對資源使用情況進行彙總分析,動態調整保底 GPU 資源,監控整體 GPU 資源水位。

通過以上資源管理措施的調整,車企 A 的 GPU  整體平均利用率從 30% 提升到了 45%。

2.2 系統性建設容錯&穩定性能力,提升GPU有效訓練時長

在小規模 GPU 場景下,通常只需要關注硬件異常引發的任務中斷,快速替換故障節點並重新拉起訓練任務進行故障恢復,就能解決大部分的問題。在千卡的大模型場景中,有很多問題並不會直接反映出硬件異常,例如訓練進程 hang 死、訓練降速、loss 跑飛(loss 值為 NaN/Inf)等等,這類問題可能跟用户代碼、訓練框架、硬件故障、操作系統、網絡、存儲都有關係。

此時,僅僅依賴專家經驗人工處理故障,時長和結果都將是一件不可控的事情。

我們需要更系統的方法,來實現感知異常、診斷定位及故障恢復。通過對訓練進程、節點狀態、網絡流量和計算負載等多維度數據的監控與分析,快速識別異常行為,然後進行自動恢復,最終生成詳細的故障報告,縮短「感知–定位–重啓–恢復」整個流程時間,提升有效訓練時長。

2.2.1 實踐

互聯網企業 Z 經歷了從小模型升級到大模型業務的轉變。在小模型場景已經積累了足夠的專家經驗處理各類故障問題。在切換至大模型場景後,沒有第一時間進行平台穩定性的建設,在故障感知、定位和恢復中投入了大量的人力成本,造成了資源的嚴重浪費。

藉助百度百舸平台的穩定性&容錯能力, 互聯網企業 Z 在大模型訓練任務中實現了顯性故障和隱形故障的及時感知、精準定位、故障隔離和自動恢復,平均故障恢復時間從 3 小時縮短到 20 分鐘,任務有效訓練時長大幅提升,確保了大規模訓練任務的持續穩定運行。

2.3 正確配置系統參數,釋放GPU性能加速訓練任務

大模型訓練任務的效率,不僅僅和集羣中 GPU 的性能和數量相關,還需要將計算、網絡、存儲各類資源進行合理配置,使得他們能夠將任務各個環節進行無縫銜接,充分發揮整個平台的能力。

一個完整的業務流程,從數據採集開始,再到將預處理好的數據送入 GPU 進行訓練,經過多輪迭代後,將最終結果寫入存儲完成訓練。整個業務流程步驟非常多,每個環節的提速都能縮短大模型訓練任務的時間。

尤其各類面向大規模 GPU 集羣的全新高性能組件(並行文件存儲 PFS、RDMA、模型訓推加速庫等)的引入,對於習慣了小模型業務場景,剛接觸大模型和 GPU 集羣的企業用户來説,如何才能用好這些能力加速模型任務呢?

為了全面地提升任務運行效率,需要對大模型訓練過程中的各個環節進行梳理,給出理想的系統配置和關鍵指標,然後與智算平台的硬件配置和期望指標對比,以便找到潛在的優化點。

2.3.1 實踐 1

傳統能源企業 H 使用並行文件存儲 PFS 提速從對象存儲 BOS 到 GPU 的數據加載流程。運行一段時間後,業務部門發現模型訓練速度雖有提升,但似乎離預期還有不小距離。

專有云 ABC Stack 對客户的整個數據流轉過程和相應配置參數進行了梳理和分析,發現客户將 PFS 的工作模式設置為「僅加載元數據」,即僅將對象存儲 BOS 的元數據進行了加速,導致在任務中未能充分發揮 PFS 的性能。

傳統能源企業 H 的業務團隊在將 PFS 的工作模式從「僅加載元數據」修改為「加載完整數據」後,任務訓練速度提升了近 40 倍。

2.3.2 實踐 2

互金企業 Y 將多機多卡的 AI 模型訓練任務部署至擁有 RDMA 網卡的新 GPU 集羣進行訓練。但經過一段時間,發現新集羣的訓練速度,與未配置 RDMA 的老平台相比,並沒有預期成比例提升。

專有云 ABC Stack 與客户深入溝通後發現,性能未達預期的原因在於 RDMA 未被正確配置。互金企業 Y 此前主要運行小模型訓練任務,並不需要使用 RDMA。所以在大規模 GPU 集羣的使用過程中,直接將老平台的使用經驗複製過來,沒有將 NCCL 中 RDMA 相關的環境變量配置到容器中。

互金企業 Y 在使能了 RDMA 網卡節點後,數據加載性能和 GPU 多卡訓練性能明顯提升,任務訓練效率對比提高約 2 倍。

2.3.3 實踐 3

在自動駕駛業務場景中,會經歷「模型選型 - 模型訓練 - 模型上車」等幾個步驟,研發團隊需要在不同模型中做實驗選出最合適的模型,並完成模型訓練,最後部署在量產車上。所以模型訓練的速度越快,量產車獲得最新 AI 能力的速度就越快,客户的體驗就越好。

在與專有云 ABC Stack 的交流中,傳統車企 C 瞭解到百度百舸的模型算法團隊針對各類主流的自動駕駛模型都進行了極致優化,相比開源版本性能有大幅度提升,均已在 AI 加速套件 AIAK 中上線。

車企 C 的智算平台升級了最新的 AIAK 加速庫,使得工程團隊可以從 AIAK 中直接調用經過優化的模型,吞吐量最高提升 400% ,縮短 80% 的訓練時間。

03 從「建好」到「用好」,加速 AI 原生業務的落地

當然,不止於上文提到的方法,GPU 效能的提高涉及到方方面面,比如合理劃分故障域、為新的 AI 加速芯片開發監控指標、部署合適的任務資源調度策略、編寫適用於大模型平台的管理手冊等。

從「過去幾塊 GPU 跑小模型,業務逐步智能化」到「現在 GPU 集羣跑大模型,業務全面智能化」業務場景的轉變,這給企業的智算平台高效能運行帶來了挑戰。同時,由於 AI 原生應用、大模型、基礎設施平台等相關技術正在快速演進,AI 算力提效將是一個長期存在的課題。

憑藉着百度百舸 4.0 在大模型基礎設施方向的領先技術,以及在不同企業級智算平台項目中積累的豐富經驗,專有云 ABC Stack 將幫助企業成功應對最新的大模型業務挑戰,「建好」和「用好」智算平台,加速 AI 原生業務的落地。

————END————

推薦閲讀

百度APP iOS端磁盤優化實踐(上)

對話AI原生|比幫你寫代碼更爽的是:讓Agent來打工

0 Token 間間隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎極限優化 TPS

百度視頻搜索架構演進

網頁結構建模在低質採集站上的識別應用

user avatar u_15690955 頭像
1 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.