vLLM

標籤

貢獻3

313

06:47 PM · Nov 25 ,2025

@vLLM / 博客 RSS 訂閱

Nov 25 2025

GPUStack - GPUStack v2：推理加速釋放算力潛能，開源重塑大模型推理下半場

2025 年是大模型推理技術發展的關鍵之年。自年初 DeepSeek R1 發佈引發全民關注以來，推理框架加速需求暴漲，推理優化的戰場驟然升温。以 vLLM、SGLang、MindIE 為代表的高性能推理引擎，以及 FlashInfer、FlashAttention、ATB 等底層加速庫不斷突破性能瓶頸，相比年初，部分前沿框架的推理性能提升已達 3 到 4 倍以上。隨着 Agent

vLLM , 高性能推理 , 大模型推理 , yyds乾貨盤點 , 人工智能 , 深度學習 , 大模型 , SGLang

收藏評論

Dec 29 2025

GPUStack - GPUStack Windows（WSL2）部署指南

GPUStack v2 以高性能推理與生產級穩定性為核心演進方向，對整體架構進行了全面重構，實現了組件間的靈活解耦，並對多推理引擎和異構算力進行了深度優化，充分釋放推理引擎在吞吐、延遲與併發方面的性能潛力。基於這一架構設計，GPUStack v2 聚焦 Linux 原生環境，以充分利用其在生態和 AI 基礎設施領域的成熟優勢。對於 Windows 用户，推薦通過 WSL2（W

大語言模型 , vLLM , yyds乾貨盤點 , 模型推理 , 人工智能 , 深度學習 , wsl2 , GPUSTACK

收藏評論

Dec 31 2025

HyperAI超神經 - 【vLLM 學習】Reproduciblity

vLLM 是一款專為大語言模型推理加速而設計的框架，實現了 KV 緩存內存幾乎零浪費，解決了內存管理瓶頸問題。更多 vLLM 中文文檔及教程可訪問 →vllm.hyper.ai/ *在線運行 vLLM 入門教程：零基礎分步指南源碼 examples/offline_inference/reproduciblity.py # SPDX-License-Identifie

vLLM , gpu , 人工智能 , 深度學習 , cpu

收藏評論

Jan 07 2026

HyperAI超神經 - 【vLLM 學習】Rlhf

vLLM 是一款專為大語言模型推理加速而設計的框架，實現了KV 緩存內存幾乎零浪費，解決了內存管理瓶頸問題。更多 vLLM 中文文檔及教程可訪問 →vllm.hyper.ai/ *在線運行 vLLM 入門教程：零基礎分步指南源碼examples/offline_inference/rlhf.py """ 一個基於 vLLM 的 RLHF 簡單實現演示，靈感來源於 O

編程 , 機器學習 , vLLM , AI , 人工智能 , 深度學習

收藏評論

Jan 04 2026

火雲大軍 - 程序員應該熟悉的概念(7)vLLM和ollama

vLLM(Virtual Large Language Model) 和 Ollama 都是用於運行大語言模型大語言模型/LLM 的工具，旨在降低本地部署和使用大模型的門檻。應用程序可以通過它們的統一接口，使用不同大模型。簡介 vLLM：是一個高性能的大模型推理引擎，專注於優化模型運行效率。通過 PagedAttention 等技術大幅提升吞吐量（每秒處理請求數）、降

llm , vLLM , ollama , 人工智能 , 深度學習

收藏評論

vLLM

@vLLM / 博客 RSS 訂閱

GPUStack - GPUStack v2：推理加速釋放算力潛能，開源重塑大模型推理下半場

GPUStack - GPUStack Windows（WSL2）部署指南

HyperAI超神經 - 【vLLM 學習】Reproduciblity

HyperAI超神經 - 【vLLM 學習】Rlhf

火雲大軍 - 程序員應該熟悉的概念(7)vLLM和ollama

Product

Company

Support

Company