tag vLLM

標籤
貢獻1
33
06:47 PM · Nov 25 ,2025

@vLLM / 博客 RSS 訂閱

GPUStack - GPUStack v2:推理加速釋放算力潛能,開源重塑大模型推理下半場

2025 年是大模型推理技術發展的關鍵之年。自年初 DeepSeek R1 發佈引發全民關注以來,推理框架加速需求暴漲,推理優化的戰場驟然升温。以 vLLM、SGLang、MindIE 為代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底層加速庫不斷突破性能瓶頸,相比年初,部分前沿框架的推理性能提升已達 3 到 4 倍以上。 隨着 Agent

vLLM , 高性能推理 , 大模型推理 , yyds乾貨盤點 , 人工智能 , 深度學習 , 大模型 , SGLang

收藏 評論

GPUStack - GPUStack Windows(WSL2)部署指南

GPUStack v2 以高性能推理與生產級穩定性為核心演進方向,對整體架構進行了全面重構,實現了組件間的靈活解耦,並對多推理引擎和異構算力進行了深度優化,充分釋放推理引擎在吞吐、延遲與併發方面的性能潛力。 基於這一架構設計,GPUStack v2 聚焦 Linux 原生環境,以充分利用其在生態和 AI 基礎設施領域的成熟優勢。 對於 Windows 用户,推薦通過 WSL2(W

大語言模型 , vLLM , yyds乾貨盤點 , 模型推理 , 人工智能 , 深度學習 , wsl2 , GPUSTACK

收藏 評論