【vLLM 學習】歡迎來到 vLLM! 詳情 - 框架,llm,機器學習,人工智能,深度學習超神經HyperAI 動態日志

vLLM 是一款專為大語言模型推理加速而設計的框架，實現了 KV 緩存內存幾乎零浪費，解決了內存管理瓶頸問題。

更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/

vLLM 是一個快速且易於使用的庫，專為大型語言模型 (LLM) 的推理和部署而設計。

vLLM 的核心特性包括：

最先進的服務吞吐量
使用 PagedAttention 高效管理注意力鍵和值的內存
連續批處理傳入請求

使用 CUDA/HIP 圖實現快速執行模型
量化： GPTQ, AWQ, INT4, INT8, 和 FP8
優化的 CUDA 內核，包括與 FlashAttention 和 FlashInfer 的集成
推測性解碼
分塊預填充

vLLM 的靈活性和易用性體現在以下方面：

無縫集成流行的 HuggingFace 模型
具有高吞吐量服務以及各種解碼算法，包括並行採樣、束搜索等
支持張量並行和流水線並行的分佈式推理
流式輸出
提供與 OpenAI 兼容的 API 服務器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
前綴緩存支持
支持多 LoRA

欲瞭解更多信息，請參閲以下內容：

vLLM announcing blog post (PagedAttention 教程)
vLLM paper (SOSP 2023)
How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
vLLM 聚會

文檔

入門

安裝

使用 ROCm 進行安裝

使用 OpenVINO 進行安裝

使用 CPU 進行安裝

使用 Neuron 進行安裝

使用 TPU 進行安裝

使用 XPU 進行安裝

快速入門

調試提示

示例

部署

OpenAI 兼容服務器

使用 Docker 部署

分佈式推理和服務

生產指標

環境變量

使用統計數據收集

整合

使用 CoreWeave 的 Tensorizer 加載模型

兼容性矩陣

常見問題解答

模型

支持的模型

添加新模型

啓用多模態輸入

引擎參數

使用 LoRA 適配器

使用 VLMs

在 vLLM 中使用推測性解碼

性能和調優

量化

量化內核支持的硬件

AutoAWQ

BitsAndBytes

GGUF

INT8 W8A8

FP8 W8A8

FP8 E5M2 KV 緩存

FP8 E4M3 KV 緩存

自動前綴緩存

簡介

實現

廣義緩存策略

性能基準測試

vLLM 的基準套件

開發者文檔

採樣參數

離線推理

LLM 類
- LLM 輸入

vLLM 引擎

LLM 引擎

LLMEngine
AsyncLLMEngine

vLLM 分頁注意力

輸入處理
概念
查詢
鍵
QK
Softmax
值
LV
輸出

輸入處理

指南
模塊內容

多模態

指南
模塊內容

Docker 文件

vLLM 性能分析

示例命令和用法
離線推理
OpenAI 服務器

社區

vLLM 聚會

贊助商

索引和表格

索引
模塊索引

超神經HyperAI 動態日志

@chaoshenjinghyperai

標簽

人工智能 (486)

Python (289)

教程 (207)

算法 (135)

深度學習 (133)

機器學習 (105)

資訊 (104)

編輯器 (55)

llm (53)

框架 (31)

編程語言 (31)

iphone (30)

動態

【vLLM 學習】歡迎來到 vLLM! - 動態詳情

文檔

入門

部署

模型