動態

列表
創建 時間

使用vLLM實測3090和4090的大模型推理性能

之前使用Ollama基於順序調用的場景比較了3090和4090的顯卡性能: Ollama大模型推理場景下3090和4090性能實測 同時,又基於3090顯卡比較了Ollama和vLLM在順序調用和多併發推理場景下的性能差異: Ollama和vLLM大模型推理性能對比實測 這裏再使用vLLM測試下大模型併發推理場景下3090和4090兩張顯卡的性能表現,看下4090是否在高併發場景下具備