2月3日,百度智能雲千帆大模型平台正式上線了DeepSeek-R1與DeepSeek-V3模型,模型上線首日,已有超1.5萬家客户通過千帆平台進行模型調用。百度智能雲針對此次模型上線提供了行業領先的超低推理價格,低至DeepSeek官方刊例價3-5折,當前還可享受限時免費服務。這一突破性進展的背後,是百度智能雲在推理引擎性能優化技術、推理服務工程架構創新以及推理服務全鏈路安全保障上的深度融合。本文將深度解析其技術實現路徑。
已上架至千帆ModelBuilder「模型廣場」
可在千帆ModelBuilder「體驗中心」立即體驗
01 推理引擎性能優化技術
基於百度智能雲在大模型推理性能優化方向的技術積累,針對DeepSeek模型MLA結構的計算進行了極致的性能優化,並通過計算、通信、內存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構等,在核心延遲指標TTFT/TPOT滿足SLA的條件下,實現模型吞吐的大幅度提升,進而顯著降低模型推理成本。
02 推理服務的工程架構創新
在推理服務層面,進行了深入的優化與創新。針對推理架構,做了嚴格的推/拉模式的性能對比。經驗證拉模式在請求處理的成功率、響應延時以及吞吐量等關鍵指標上均展現出更為卓越的性能。為了進一步提升系統的穩定性和用户體驗,巧妙地設計了一種請求失敗的續推機制,這顯著增強了系統的容錯能力和服務SLA達標率。同時針對多輪對話和system設定等場景中存在重複Prompt前綴的情況,實現了主流的KV-Cache複用技術,並輔以全局Cache感知的流量調度策略。這一舉措有效避免了Token KV的重複計算,從而大幅降低推理延遲,提高了推理吞吐。
03 推理服務的穩定安全保障
千帆平台基於百度自身長期的大模型安全技術積累,集成獨家內容安全算子,實現模型安全增強與企業級高可用保障,基於大模型全生命週期數據安全與模型保護機制,在千帆平台上的模型均擁有使用安全的安全保障;基於在安全方面的專項優化,確保DeepSeek-R1&DeepSeek-V3模型,企業用户在使用過程也具有更高的安全性。
百度智能雲千帆ModelBuilder始終致力於為用户提供全流程、一站式的 AI 服務,除了強大的模型資源,還匹配了完善的一站式模型效果調優工具鏈,包含數據加工、模型精調、模型評估、模型量化等關鍵環節,助力企業根據自身業務需求深度優化模型性能。同時,百度智能雲千帆ModelBuilder具備卓越的模型推理託管能力,支持vLLM、LMDeploy、TensorRT-LLM、SGLang等各類主流推理框架,還支持模型的自定義導入與部署,為開發者提供了高度靈活的開發環境。
值得一提的是,百度智能雲近日成功點亮了崑崙芯P800萬卡集羣,這也是國內首個正式點亮的自研萬卡集羣,百度智能雲將進一步點亮3萬卡集羣。
未來,我們將持續解鎖更多技術文檔,共享行業最佳實踐案例,助力每一位創新者更快突破技術邊界。我們期待與更多企業用户、開發者一起,共同探索無限可能,攜手共創AI新篇章。
————END————
推薦閲讀
喚醒 AI 算力,專有云 ABC Stack 面向企業級智算平台的 GPU 提效實踐
對話AI原生|比幫你寫代碼更爽的是:讓Agent來打工
0 Token 間間隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎極限優化 TPS
百度視頻搜索架構演進
網頁結構建模在低質採集站上的識別應用