vLLM 是一款專為大語言模型推理加速而設計的框架,實現了 KV 緩存內存幾乎零浪費,解決了內存管理瓶頸問題。
更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/
vLLM 是一個快速且易於使用的庫,專為大型語言模型 (LLM) 的推理和部署而設計。
vLLM 的核心特性包括:
- 最先進的服務吞吐量
- 使用 PagedAttention 高效管理注意力鍵和值的內存
- 連續批處理傳入請求
- 使用 CUDA/HIP 圖實現快速執行模型
- 量化: GPTQ, AWQ, INT4, INT8, 和 FP8
- 優化的 CUDA 內核,包括與 FlashAttention 和 FlashInfer 的集成
- 推測性解碼
- 分塊預填充
vLLM 的靈活性和易用性體現在以下方面:
- 無縫集成流行的 HuggingFace 模型
- 具有高吞吐量服務以及各種解碼算法,包括並行採樣、束搜索等
- 支持張量並行和流水線並行的分佈式推理
- 流式輸出
- 提供與 OpenAI 兼容的 API 服務器
- 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
- 前綴緩存支持
- 支持多 LoRA
欲瞭解更多信息,請參閲以下內容:
- vLLM announcing blog post (PagedAttention 教程)
- vLLM paper (SOSP 2023)
- How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
- vLLM 聚會
文檔
入門
安裝
使用 ROCm 進行安裝
使用 OpenVINO 進行安裝
使用 CPU 進行安裝
使用 Neuron 進行安裝
使用 TPU 進行安裝
使用 XPU 進行安裝
快速入門
調試提示
示例
部署
OpenAI 兼容服務器
使用 Docker 部署
分佈式推理和服務
生產指標
環境變量
使用統計數據收集
整合
使用 CoreWeave 的 Tensorizer 加載模型
兼容性矩陣
常見問題解答
模型
支持的模型
添加新模型
啓用多模態輸入
引擎參數
使用 LoRA 適配器
使用 VLMs
在 vLLM 中使用推測性解碼
性能和調優
量化
量化內核支持的硬件
AutoAWQ
BitsAndBytes
GGUF
INT8 W8A8
FP8 W8A8
FP8 E5M2 KV 緩存
FP8 E4M3 KV 緩存
自動前綴緩存
簡介
實現
廣義緩存策略
性能基準測試
vLLM 的基準套件
開發者文檔
採樣參數
離線推理
-
LLM 類
- LLM 輸入
vLLM 引擎
LLM 引擎
- LLMEngine
- AsyncLLMEngine
vLLM 分頁注意力
- 輸入處理
- 概念
- 查詢
- 鍵
- QK
- Softmax
- 值
- LV
- 輸出
輸入處理
- 指南
- 模塊內容
多模態
- 指南
- 模塊內容
Docker 文件
vLLM 性能分析
- 示例命令和用法
- 離線推理
- OpenAI 服務器
社區
vLLM 聚會
贊助商
索引和表格
- 索引
- 模塊索引