記憶張量攜手商湯大裝置開啓國產 GPGPU 的下一代推理新範式

新聞
HongKong
10
03:12 PM · Dec 05 ,2025

記憶張量聯合商湯大裝置宣佈,在國產 GPGPU 上率先跑通業內首個以“記憶 - 計算 - 調度”一體化為核心的 PD 分離商用推理集羣。相比傳統僅依賴硬件隔離的方案,本次落地將 PD 分離與記憶張量旗下核心產品 MemOS 的激活記憶體系深度耦合,使 Prefill 批量化可調度、Decode 前台低抖動成為可能。

集羣在真實 C 端負載下實現單卡併發效率提升 20%、吞吐提升 75%,綜合推理性價比達到同代 NVIDIAA100 的 150%。這一成果標誌着國產算力體系在大模型商業化路徑上首次具備“體系級”競爭力,為高性能模型的大規模落地打開了全新的降本增效空間。

為什麼是 MemOS? 解決大模型長期記憶和 Agent 協作的五大痛點

過去一年中,“PD 分離”幾乎成了大模型推理優化裏最熱的技術關鍵詞之一,但一個被反覆忽略的現實是:如果只在算力層面做 PD 分離,而不對上層業務路徑重構,能帶來的收益是天然有上限的。

Prefill(計算密集)與 Decode(訪存密集)在真實生產環境中的比例、觸發頻率和負載形態取決於業務本身——是長對話還是短問答,是高併發 C 端應用還是低頻 B 端調用?在這些問題沒有被重新建模之前,通過“算存拆分”,往往只能做局部吞吐的改善,卻很難真正突破天花板。

隨着 DeepSeek-R1 等高性能模型從 B 端試水走向 C 端大規模落地,局面發生了根本性變化:“記憶”不再只是一個錦上添花的高級能力,已經開始成為 C 端產品體驗與成本結構的核心變量。

超長上下文、跨輪次的上下文複用、基於先驗的影子預測、針對熱門場景的 KV Cache 批量生成……這些能力正在把 Prefill 從原本一次性的“首字計算”,放大成一個高佔比、可預測、可調度的批量任務集;而 Decode 則越來越像一個必須始終保持低抖動、低延遲、強穩定的“前台交互引擎”。

在這樣的應用形態下,PD 分離的角色被徹底改寫:

只有當 PD 分離與記憶結構深度耦合,變成一套圍繞“記憶—計算—調度”重構的整體體系時,它才有機會真正超越傳統意義上的性能上限。

MemOS 作為業內唯一一個以記憶為中心,覆蓋從底層推理、到記憶模型,再到應用工程進行系統設計的記憶基礎設施,它將大模型的認知結構劃分為三類記憶:

  • 參數記憶:承載長期穩定知識,對應模型本身的參數空間;
  • 激活記憶:承載短期動態狀態,包括 KVCache、隱藏層激活、注意力權重等;
  • 明文記憶:承載可檢索、可審計的外部知識與用户信息。

這三類記憶形成了一條跨時間尺度的調度鏈路,使得 MemOS 不再只是“一個向量庫外掛”,可以進行精細地決策:

  • 哪些計算應該前移到 Prefill,哪些必須留在 Decode;
  • 哪些狀態值得長期保留,哪些可以在一定條件下降級或淘汰;
  • 哪些上下文可以複用,哪些需要重新計算。

PD 分離 × 業務路徑在這裏第一次被真正打通,而不是被割裂成兩條平行的優化線。

相比傳統的只做“長上下文拼接”的純明文記憶系統,或只在參數空間做一些長期偏好固化的簡單參數記憶模型,MemOS 更適合和 PD 分離進行結合——它擁有一整套可以“決定如何用這條通道”的調度邏輯,從而把 PD 分離原本有限的收益空間儘可能壓榨到極致。

正因此,本次記憶張量與商湯大裝置在某國產 GPGPU 上的解決方案,真正跑出一版帶完整業務語境的 R1 滿血推理集羣——

不僅在單機和小規模集羣實驗中有效,而且在嚴格 SLA 約束下,可以在 12 台 4P8D 架構的商用集羣上穩定運行,將 PD 分離從“好主意”變成“可以被商業化復現的工程範式”。

結構共振:PD 分離第一次有了“落點”

在本次合作的方案中,商湯大裝置提供了讓 MemOS 三層記憶結構擁有物理載體的頂層系統級基礎設施**。依託大裝置 IaaS ** 的高效算力池、智能算力調度等為模型推理提供穩定的基礎設施支撐;並藉助 Ignite 框架提供多後端推理適配、KV Cache 管理優化、關鍵算子加速、跨節點通信調優等性能增強,形成體系化的推理優化鏈路;同時,商湯萬象 MaaS 平台統一調度策略確保 Prefill 與 Decode 服務在高併發場景下始終穩定運行。

集羣的底層算力方面,則由算豐信息提供核心支撐,算豐信息在此次集羣中承接管理了所有高性 GPGPU 計算資源、大規模文件對象存儲以及高速互聯網絡服務,為 PD 分離架構的高效穩定運行提供了不可或缺的鼎力支持。

在商湯大裝置的某國產 GPGPU 集羣上,MemOS 的記憶結構被映射成了非常清晰的物理分工:

  • P 域(Prefill Domain)變成真正的“記憶工廠”,集中承載影子上下文的預測與 KV Cache 的批量預生成,這些任務通常對吞吐敏感、對時延容忍度高,因此可以在 P 域以高並行、高利用率的方式被源源不斷地消化掉,而不再與前台交互搶佔資源;
  • D 域(Decode Domain)則被打造為純粹的“實時交互前台”,專注處理真實用户請求的解碼過程,在保持超低 TTFT 的前提下,承擔起 R1 這一類大模型在 C 端場景的連續輸出與穩定響應;
  • 跨節點 KV Cache 則通過高帶寬互聯與零拷路徑實現“即產即用”,MemOS 的激活記憶機制與商湯在某國產 GPGPU 上打磨出的通信能力形成天然互補,使 Prefill 產生的 KV Cache 不再成為傳輸瓶頸,而是以極低開銷進入 D 域的解碼流程中。

這次合作是一次體系級的結構共振:

PD 分離為 MemOS 打開了一條真正意義上的高速算力通道,而 MemOS 則為 PD 分離提供了精細到記憶單元級別的調度邏輯和業務上下文,讓兩者不再是孤立的“優化點”,而是共同長在同一棵體系樹上的“結構分支”。

正因為有了這樣的結構落點,PD 分離才第一次從一個工程團隊內部的“性能小技巧”,變成一套可以被完整描述、完整度量、並在生產環境中長期運行的​新推理範式​。

數據驗證:國產 GPGPU 第一次跑出 R1 的“完整形態”

 

在嚴格的生產級評測口徑下——包括 ​2k 輸入、1k 輸出、TTFT<2s 的 SLA 約束、72 小時以上穩態運行、統一的限流與負載生成策略​——記憶張量與商湯大裝置聯合打造的國產 GPGPU 集羣交出了這樣一張答卷:

  • 集羣整體吞吐量提升 75+%,從 Naive 部署下的 107.85 tokens/s 提升到 189.23 tokens/s,不是因為“卡更強了”,而是 Prefill 與 Decode 真正做到了算/存解耦,流水線氣泡被有效壓縮,影子上下文的批量預計算也不再造成資源浪費;
  • 單卡併發能力提升約 20%,從 25.00 併發/卡提升至 29.42 併發/卡,在 C 端場景下十分關鍵,這意味着在同等硬件規模下,集羣能穩態承載更高的實時會話數,高峯期排隊與溢出的風險明顯降低;
  • TTFT 全程穩定小於 2 秒,得益於 Prefill 全量前移和 D 域職責的“單一化”,Decode 不再被一些突發的重 Prefill 任務搶佔資源,首字延遲因此從系統層面得到了保障;
  • KV Cache 在熱門場景中的命中率顯著提升,可達 70%+,這使得諸如 MemOS-Chat 這一類需要高頻、多輪交互的 C 端應用,在熱點話題和常見任務上具備了極高的預計算複用率,推理成本被進一步攤薄;
  • 在統一財務與技術口徑下,綜合推理性價比達到同代 NVIDIA A100 的 150% 左右,在嚴格 SLA 與相同負載結構下,某國產 GPGPU 在這一套“記憶原生 × PD 分離 × 業務調度”的框架中,第一次實現了對 A100 的體系級正面超越。

這些數字代表着:

“國產 GPU 不再只是一個“可以跑大模型”的選項,而是真正具備了承載 R1 級 C 端業務的體系能力。“

行業意義:下一代推理範式被點亮

從行業視角來看,這次聯合實踐更重要的價值在於清晰地描繪出了一條​未來大模型推理架構的可行路線​。

首先,PD 分離從“硬件層的算存優化”,升級為“圍繞記憶的推理範式設計”。

在記憶缺位的系統裏,PD 分離往往只能作用於算子級、節點級的小局部;而在 MemOS 這樣以記憶為核心組織推理流程的系統裏,PD 分離可以延伸到行為預測、上下文規劃、激活記憶佈局等更高維度,從而變成整體架構的一部分,而不再是孤立的工程優化。

其次,C 端場景將逐步從 Token 推理走向 Memory 推理。

過去我們習慣從“生成了多少 Token”、“延遲是多少”來評價系統,現在我們越來越需要思考的是:系統在多長時間尺度內能保持一致的人設、風格和偏好;它是否能記住用户的歷史行為,並以此給出更智慧、更個性化的反應。在這個意義上,記憶不再是推理鏈路的外掛,而正在成為推理本身的中心。

未來,國產 GPU 不必也不應該只是在“算力參數”上做對標,而是有機會在體系結構上形成差異化領先。

通過記憶張量和商湯大裝置的聯合探索,我們可以看到:當底層架構與上層系統“共同為記憶和 Agent 這種新形態服務”時,國產生態已經可以定義自己的技術話語體系。

很多長期困擾工程團隊的問題:“為什麼 PD 分離在實驗室裏很好看、一到生產就塌方”,“為什麼集羣越擴越容易失控”,“為什麼 C 端體驗總會莫名其妙波動”——在這套框架下都有了同一個答案:

不是技術選型不對,而是體系結構不對。

當“記憶原生 × PD 分離”兩件事同時準備好,這些瓶頸不再是孤立的 bug,而成為了可以被系統性地鬆動和重構的變量。

展望:記憶原生時代的國產算力新起點

 

未來,記憶張量與商湯將在這一範式之上繼續深化合作:

一方面,圍繞更大規模的國產 GPGPU 集羣,構建真正意義上的記憶驅動流水線推理底座,讓“影子上下文 - 激活記憶 - PD 分離 - 多級緩存 - AIOps ”成為一套可觀測、可回滾、可演進的基礎設施能力;

另一方面,在 Prefill 行為預測自治化、多級激活記憶管理、跨任務長時記憶一致性、面向 Agent 的軌跡記憶等方向上持續打磨,讓這套範式不僅能支撐今天的聊天與問答,還能承載未來的伴隨式 AI、具身智能體以及更復雜的長週期任務編排。

從更長遠的視角看,這次聯合實踐帶來的最大改變,也許不是某一個模型跑得更快、某一類集羣利用率更高,而是——

國產算力體系第一次擁有了另一條面向未來智能形態的可能“結構性路線”:

從參數計算走向記憶計算,從靜態推理走向動態流水線,從模型中心走向記憶中心。

在這條路上,國產 GPGPU 不再只是“跟上來”的參與者,而完全有機會成為下一代推理範式的定義者之一。

而這一次,記憶張量與商湯大裝置把這條路上的第一盞路燈點亮了。


logo 動態.jpg

關於 MemOS

MemOS 為 AGI 構建統一的記憶管理平台,讓智能系統如大腦般擁有靈活、可遷移、可共享的長期記憶和即時記憶。

作為記憶張量首次提出“記憶調度”架構的 AI 記憶操作系統,我們希望通過 MemOS 全面重構模型記憶資源的生命週期管理,為智能系統提供高效且靈活的記憶管理能力。

 

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.