CPU、GPU還沒卷明白,DPU又來了!_算力

1. 開場白:CPU、GPU都在卷,DPU是誰家的“熊孩子”?

要説這幾年芯片圈誰最火,CPU是“老牌天王”,GPU是“AI新貴”,而DPU呢?就是那個突然躥紅的“隔壁老張家的孩子”——一出場就自帶光環,號稱“第三顆主力芯片”。

別看它名字聽着像“CPU的表弟”,其實它的使命是:幫CPU“打雜”,替GPU“擋槍”,讓數據中心跑得飛快還不喘

2. DPU是啥?一句話説清,三句話説不完

一句話版本:IEEE Micro 2023專刊定義:“DPU is a programmable processor, dedicated to data movement, transformation, and security, offloading infrastructure tasks from host CPUs.”

講中文:DPU是一種可編程處理器,致力於數據移動、轉換與安全,為CPU卸載基礎設施任務。

三句話版本

  • 它像“超級網卡”,但不止於網卡;
  • 它像“小服務器”,但比服務器更專一;
  • 它像“加速器”,但不止於加速,還能“卸載”CPU的負擔。

專業點説:DPU是一種SoC(系統級芯片),集成了ARM核、網絡接口、硬件加速器,能處理網絡、存儲、安全等基礎設施任務。

3. DPU能幹啥?應用場景

DPU應用場景主要有:

  • 雲計算與虛擬化:這是 DPU 最主要的應用場景。雲服務商需要為成千上萬個虛擬機提供網絡連接,DPU 可以高效地管理這些虛擬網絡接口,提升整體集羣的性能。
  • AI 訓練與推理:在 AI 訓練中,數據傳輸往往比計算本身更慢。DPU 可以加速數據在 GPU 之間的傳輸(RDMA 技術),解決“數據飢餓”問題。
  • 企業級安全:DPU可以在數據進入主機之前就完成防火牆過濾和安全掃描,防止惡意軟件入侵主機系統。
  • 智能駕駛:在汽車領域,DPU 也被稱為IPU(Infrastructure Processing Unit),負責處理車載攝像頭、雷達產生的海量傳感器數據,減輕主控芯片的壓力。

4. 前世今生:從“網卡”到“三當家”,DPU的逆襲之路

DPU的“祖宗”其實是智能網卡(SmartNIC),最早是為了解決“CPU被網絡協議棧拖垮”的問題。

  • 2016年,Fungible公司首次提出DPU概念;
  • 2020年,NVIDIA收購Mellanox後,正式將BlueField系列命名為DPU,引爆行業;
  • 2025年,DPU已成為數據中心“三當家”,與CPU、GPU並列。

一句話總結:DPU不是一夜爆紅,是十年磨一劍,蹭着AI和雲計算的風口飛起來了

5. 技術扒皮:DPU的硬核技術有啥?

DPU的核心設計理念是“合適的任務交給合適的處理器”。與CPU的通用性不同,DPU採用了“異構計算”思路,將不同任務分配給最適合的處理單元,有以下處理單元:




模塊

作用

比喻

控制平面:可編程多核處理器(多核ARM CPU)

控制平面,管調度。提供通用的控制能力,運行輕量級的操作系統。比如,NVIDIA的BlueField-3 DPU,一個就能頂300個CPU核的工作量,網絡延遲從毫秒級降到5微秒,存儲訪問延遲降低80%

“大腦”。通常是ARM架構的處理器核心,能夠運行各種網絡、存儲和安全功能。這相當於給DPU裝上了“大腦”,讓它能夠智能處理任務。

高性能網絡接口(ASIC/NIC)

數據進出,管傳輸。專用的集成電路,用於極致的網絡吞吐。

“高速公路”。通常是25G、100G甚至200G的以太網接口,負責高速數據傳輸。這就好比把鄉村小土路升級為雙向八車道的高速公路。

硬件加速引擎(FPGA/ML)

數據加密、壓縮、協議處理,可編程邏輯電路,用於特定的算法加速或 AI 推理

“特種兵”。專門為特定任務(如加密解密、數據壓縮、正則表達式匹配)設計的硬件模塊,處理速度比通用處理器快幾個數量級。可以理解為給特定任務開了“外掛”。

這種設計有點像餐廳的後廚分工:行政主廚(ARM核心)制定菜單和標準,各個專項廚師(硬件加速器)快速處理特定菜品,整體效率遠高於一個全能廚師(CPU)包攬一切。

6. 能幹啥?DPU的“硬核本領”

DPU 通常位於服務器的主板上,直接連接內存和網絡接口。DPU的本領,可以用“網絡、存儲、安全、虛擬化”四大板塊來概括:




場景

功能

效果

網絡

卸載OVS、RDMA加速、TCP協議棧

網絡延遲降10倍,吞吐提升5倍

存儲

NVMe-oF、數據壓縮、加密

遠程存儲像本地一樣快

安全

IPSec/TLS加密、防火牆

加密性能提升150倍

虛擬化

卸載Hypervisor、熱遷移

虛擬機遷移不再“卡成PPT”

6.1 網絡加速:從“鄉間小路”到“高速公路”

傳統網絡協議棧處理需要數據在用户空間和內核空間之間多次拷貝,這種“折騰”在低速網絡時代問題不大,但在100G+網絡下就成了性能瓶頸。DPU通過以下方式徹底改變了遊戲規則:

  • 零拷貝技術:數據直接從網卡進入應用內存,省去了中間拷貝環節
  • 協議卸載:將TCP/IP協議棧處理完全卸載到DPU硬件中
  • RDMA支持:允許遠程主機直接訪問本地內存,延遲降低90%以上

效果如何?根據英偉達的測試,使用BlueField DPU後,Redis鍵值存儲的每秒查詢率提升了2倍,延遲降低了40%。這就像把網絡從滿是紅綠燈的市區道路,變成了沒有收費站的高速公路。

6.2 存儲虛擬化:給數據插上翅膀

在虛擬化環境中,存儲訪問需要經過多層虛擬化轉換,導致額外開銷。DPU能夠:

  • 將虛擬存儲控制器卸載到硬件中
  • 提供接近本地NVMe SSD性能的遠程存儲訪問
  • 實現存儲資源的靈活分配和管理

亞馬遜的AWS Nitro系統就是典型案例。通過將存儲和網絡虛擬化功能卸載到專用硬件,Nitro系統將幾乎100%的服務器算力留給了客户實例。這相當於把存儲管理這個“管家”從CPU的豪宅裏請出來,給了它自己的一間辦公室,主人家頓時寬敞多了。

6.3 安全隔離:在芯片裏築起“防火牆”

安全是雲服務的生命線。DPU通過以下方式增強數據中心安全:

  • 硬件信任根:提供從啓動開始的信任鏈驗證
  • 安全隔離:將管理面與數據面物理分離,即使客户VM被攻破,也無法觸及基礎設施
  • 線速加密:對進出數據中心的全部流量進行加密,性能損失幾乎為零

“DPU實現了真正的‘零信任’安全架構,” Palo Alto Networks首席技術官Nir Zuk評價道,“它將安全策略執行點移到了最靠近數據的地方。”

6.4 虛擬化:打破桎梏,釋放算力自由

傳統虛擬化架構中,虛擬化管理程序作為 “中間樞紐”,需要承擔虛擬機調度、資源分配、I/O 轉發等核心工作,這些任務全部依賴 CPU 算力,形成了兩大致命瓶頸:一是 CPU 負載居高不下,大量算力被虛擬化開銷消耗,無法真正服務於業務應用;二是虛擬機熱遷移時,需通過 CPU 實時處理內存數據同步和 I/O 請求轉發,導致遷移過程延遲高、易卡頓,甚至影響業務連續性。

DPU 的出現,通過 “硬件卸載 + 智能調度” 雙輪驅動,徹底重構了虛擬化架構:

  • Hypervisor 核心功能卸載:將虛擬機的 I/O 虛擬化、內存分頁管理、網絡轉發等耗資源的任務,從 CPU 轉移到 DPU 硬件執行。DPU 內置專用的虛擬化加速引擎,能以線速處理這些任務,無需佔用 CPU 核心,讓 CPU 徹底擺脱 “虛擬化管家” 的角色,專注於業務計算。
  • 智能熱遷移加速:DPU 通過內存直接訪問(DMA)技術,繞過 CPU 實現虛擬機內存數據的直接拷貝與同步;同時,藉助硬件級的 I/O 狀態快照功能,快速凍結並遷移虛擬機的網絡、存儲連接狀態。整個過程無需 CPU 參與數據處理,僅需 CPU 下發控制指令。
  • 虛擬機密度提升:由於 DPU 承接了虛擬化開銷,單台服務器可承載的虛擬機數量大幅增加。傳統架構下,CPU 開銷限制了虛擬機密度,而 DPU 卸載後,CPU 利用率可從原本的 50%-60% 提升至 80%-90%,虛擬機密度最高能提升 3 倍。

效果有多顯著?以 VMware 與英偉達合作的方案為例,採用 BlueField DPU 後,虛擬機熱遷移時間從傳統架構的分鐘級壓縮至秒級 —— 遷移 8GB 內存的虛擬機,延遲從 12 秒降至 1.8 秒,卡頓現象完全消失,業務中斷感知趨近於零;同時,每台服務器的虛擬機承載量從 20 台提升至 65 台,數據中心整體算力利用率提升了 160%。

這就像原本由 CPU 獨自打理的 “虛擬機公寓樓”,現在來了 DPU 這個 “專業物業團隊”:物業包攬了水電維修(I/O 處理)、住户搬家(熱遷移)、樓道管理(資源分配)等瑣事,CPU 作為 “房東”,終於能專注於為 “住户”(業務應用)提供核心服務。正如 VMware 首席技術官 Kit Colbert 所言:“DPU 讓虛擬化從‘性能妥協’走向‘算力自由’,它不是簡單的硬件加速,而是虛擬化架構的範式轉移。”

總結一句話:DPU是“數據中心的瑞士軍刀”,啥都能幹,還幹得飛快。

7. DPU的產業格局

7.1 國際主要廠商

國際上,DPU市場由幾家巨頭主導,市場份額較高。根據多份報告,國際三大巨頭英偉達(NVIDIA)、博通(Broadcom)和英特爾(Intel)的市場份額合計超過90%,其中英偉達佔據主導地位。其他國際廠商包括:

NVIDIA:其BlueField系列DPU廣泛應用於數據安全、網絡安全等領域。

Broadcom:其Stingray系列DPU用於交換機和路由器。

Intel:提供基於FPGA的IPU產品,如C5020X,面向交換機和路由器。

Marvell:其OCTEON 10系列DPU用於機器學習和加密處理。

Fungible:其F1系列DPU用於網絡和存儲加速。

AWS、Microsoft、Amazon等雲服務商也提供DPU產品,如AWS的Nitro系統和Microsoft的Catapult v3。

7.2 國內主要廠商

國內廠商在DPU領域發展迅速,尤其在近年來加速佈局。根據多份報告,國內廠商包括:

芯啓源:預計2024年推出NFP-7000 DPU,對標英偉達BlueField-3。

中科馭數:其K2系列芯片已推出多代產品,專注於高性能計算和AI加速。

大禹智芯:其Paratus 2.0產品結合SoC和FPGA技術。

星雲智聯、雲豹智能、雲脈芯聯等初創企業也在積極佈局DPU市場。

阿里雲、華為、騰訊、百度等國內科技巨頭也在自研或採購DPU,以滿足數據中心和雲計算需求。

7.3 市場格局與趨勢

市場集中度高:國際巨頭佔據主導地位,但國內廠商通過技術創新和資本投入加速追趕。

技術路線多樣化:DPU採用ASIC、FPGA、SoC等多種技術路線,以滿足不同應用場景的需求。

應用場景廣泛:DPU廣泛應用於數據中心、雲計算、AI加速、網絡安全等領域。

7.4 挑戰與機遇

國際競爭激烈:國際廠商憑藉先發優勢和技術積累佔據主導地位,國內廠商需在技術創新和產品性能上持續突破。

國產替代需求:隨着國產化趨勢加速,國內廠商在自主可控方面具有潛力。

8. 值幾個錢?DPU市場“錢景”分析

Business Research(https://www.businessresearchinsights.com/zh/market-reports/data-processing-unit-dpu-market-120671)預測全球數據處理單元(DPU)的市場規模在2024年的價值為24.9億美元,預計到2033年將達到353.5億美元,生長複合年增長率約為34.23%。 在預測期內。

一句話總結:DPU不是“風口上的豬”,是“風口上的火箭”。

9. 未來趨勢:DPU的“星辰大海”

DPU的未來,可以用“三化”來概括:



趨勢

説明

集成化

未來DPU將集成GPU、AI加速器,成為“超級SoC”

標準化

NVIDIA推出DOCA SDK,打造“DPU界的CUDA”

普及化

從雲數據中心,走向邊緣、終端、車載

説人話:DPU現在還在“高端局”,未來可能連你家路由器都用得上。

10.DPU——不是終點,而是新起點

回顧計算曆史,我們看到一個清晰的模式:每當通用處理器遇到瓶頸,專用處理器就會崛起。從浮點協處理器到GPU,再到今天的DPU,這齣戲已經上演了多次。

DPU不是要取代CPU或GPU,而是讓它們做自己最擅長的事。它的出現標誌着數據中心從“通用計算”向“專用優化”的轉變。就像一支足球隊,不能全是前鋒或全是後衞,合理的分工才能贏得比賽。

對於技術從業者,DPU帶來了新的機遇和挑戰;對於企業,它提供了優化基礎設施的新工具;對於整個行業,它是應對數據爆炸的關鍵創新。

DPU的故事才剛剛開始。未來的數據中心可能會因為它而變得面目全非,但有一點可以肯定:誰掌握了數據處理的高效之道,誰就掌握了數字時代的主動權。

而在我們追逐更高性能、更低功耗、更強安全的道路上,DPU不會是最後一個專用處理器。它只是提醒我們:在追求通用與專用、靈活與效率的永恆平衡中,永遠有創新的空間。

畢竟,在這個數據如洪水般涌來的時代,我們需要的不只是更強的處理器,更是更聰明的處理方式。而DPU,正是這種智慧的體現——不是蠻力對抗數據洪流,而是巧妙引導,讓它為我們所用。

這大概就是技術進步的真正意義:不是讓世界變得更復雜,而是讓複雜的世界變得更容易管理。DPU,正在這條路上邁出堅實的一步。

彩蛋:一句話記住DPU

“CPU是大腦,GPU是肌肉,DPU是神經+血管+免疫系統。”

CPU、GPU還沒卷明白,DPU又來了!_算力_02