首日調用客户破1.5萬！DeepSeek-V3/R1上線背後的超低推理成本技術揭秘詳情 - 百度,算法百度Geek説博客

2月3日，百度智能雲千帆大模型平台正式上線了DeepSeek-R1與DeepSeek-V3模型，模型上線首日，已有超1.5萬家客户通過千帆平台進行模型調用。百度智能雲針對此次模型上線提供了行業領先的超低推理價格，低至DeepSeek官方刊例價3-5折，當前還可享受限時免費服務。這一突破性進展的背後，是百度智能雲在推理引擎性能優化技術、推理服務工程架構創新以及推理服務全鏈路安全保障上的深度融合。本文將深度解析其技術實現路徑。

已上架至千帆ModelBuilder「模型廣場」

可在千帆ModelBuilder「體驗中心」立即體驗

01 推理引擎性能優化技術

基於百度智能雲在大模型推理性能優化方向的技術積累，針對DeepSeek模型MLA結構的計算進行了極致的性能優化，並通過計算、通信、內存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構等，在核心延遲指標TTFT/TPOT滿足SLA的條件下，實現模型吞吐的大幅度提升，進而顯著降低模型推理成本。

02 推理服務的工程架構創新

在推理服務層面，進行了深入的優化與創新。針對推理架構，做了嚴格的推/拉模式的性能對比。經驗證拉模式在請求處理的成功率、響應延時以及吞吐量等關鍵指標上均展現出更為卓越的性能。為了進一步提升系統的穩定性和用户體驗，巧妙地設計了一種請求失敗的續推機制，這顯著增強了系統的容錯能力和服務SLA達標率。同時針對多輪對話和system設定等場景中存在重複Prompt前綴的情況，實現了主流的KV-Cache複用技術，並輔以全局Cache感知的流量調度策略。這一舉措有效避免了Token KV的重複計算，從而大幅降低推理延遲，提高了推理吞吐。

03 推理服務的穩定安全保障

千帆平台基於百度自身長期的大模型安全技術積累，集成獨家內容安全算子，實現模型安全增強與企業級高可用保障，基於大模型全生命週期數據安全與模型保護機制，在千帆平台上的模型均擁有使用安全的安全保障；基於在安全方面的專項優化，確保DeepSeek-R1&DeepSeek-V3模型，企業用户在使用過程也具有更高的安全性。

百度智能雲千帆ModelBuilder始終致力於為用户提供全流程、一站式的 AI 服務，除了強大的模型資源，還匹配了完善的一站式模型效果調優工具鏈，包含數據加工、模型精調、模型評估、模型量化等關鍵環節，助力企業根據自身業務需求深度優化模型性能。同時，百度智能雲千帆ModelBuilder具備卓越的模型推理託管能力，支持vLLM、LMDeploy、TensorRT-LLM、SGLang等各類主流推理框架，還支持模型的自定義導入與部署，為開發者提供了高度靈活的開發環境。

值得一提的是，百度智能雲近日成功點亮了崑崙芯P800萬卡集羣，這也是國內首個正式點亮的自研萬卡集羣，百度智能雲將進一步點亮3萬卡集羣。

未來，我們將持續解鎖更多技術文檔，共享行業最佳實踐案例，助力每一位創新者更快突破技術邊界。我們期待與更多企業用户、開發者一起，共同探索無限可能，攜手共創AI新篇章。

————END————

推薦閲讀

喚醒 AI 算力，專有云 ABC Stack 面向企業級智算平台的 GPU 提效實踐

對話AI原生｜比幫你寫代碼更爽的是：讓Agent來打工

0 Token 間間隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎極限優化 TPS

百度視頻搜索架構演進

網頁結構建模在低質採集站上的識別應用

百度Geek説博客

百度Geek説博客

博客 / 詳情