vLLM-Omni 上線：多模態推理更簡單、更快、更省 - 新聞詳情 | YeLogs.com

vLLM-Omni 上線：多模態推理更簡單、更快、更省

新聞

HongKong

34

12:54 PM · Dec 02 ,2025

vLLM 團隊正式發佈 vLLM-Omni：這是 vLLM 生態向“全模態（omni-modality）”時代邁出的關鍵一步，專門為新一代看得見、聽得懂、會説話、能生成多種媒介的模型設計的推理框架。

自項目開始，vLLM 一直專注於為大語言模型（LLM）提供高吞吐、低顯存的推理能力。但今天的生成式模型已經遠不止“文本輸入、文本輸出”：新的模型可以同時理解和生成文本、圖像、音頻、視頻，背後也不再是單一自迴歸架構，而是由編碼器、語言模型、擴散模型等異構組件拼接而成。

vLLM-Omni 是最早一批支持“omni-modality”模型推理的開源框架之一，它把 vLLM 在文本推理上的性能優勢，擴展到了多模態和非自迴歸推理領域。

vLLM-Omni 不是在 vLLM 外面再包一層，而是從數據流（data flow）的角度重新拆解了整個推理路徑。它引入了一個完全解耦的流水線架構，讓不同階段可以按需分配資源，並通過統一調度銜接起來。

在這套架構中，一個 omni-modality 推理請求大致會經過三類組件：

模態編碼器（Modality Encoders）：負責高效地把多模態輸入編碼成向量或中間表示，例如 ViT 視覺編碼器、Whisper 等語音編碼器。
LLM 核心（LLM Core）：基於 vLLM 的自迴歸文本/隱藏狀態生成部分，可以是一個或多個語言模型，用於思考、規劃和多輪對話。
模態生成器（Modality Generators）：用於生成圖片、音頻或視頻的解碼頭，例如 DiT 等擴散模型。

這些組件並不是簡單串聯，而是通過 vLLM-Omni 的管線調度在不同 GPU/節點間協同工作。對於工程團隊來説，這意味着：

可以針對不同階段單獨做擴縮容和部署拓撲設計；
可以根據業務瓶頸（如圖像生成 vs 文本推理）調整資源分配；
可以在不破壞整體架構的前提下替換局部組件（例如切換為新的視覺編碼器）。

代碼與文檔：
GitHub 倉庫：https://github.com/vllm-project/vllm-omni
文檔站點：https://vllm-omni.readthedocs.io/en/latest/

0 位用戶收藏了這個故事！