動態

詳情 返回 返回

使用vLLM實測3090和4090的大模型推理性能 - 動態 詳情

之前使用Ollama基於順序調用的場景比較了3090和4090的顯卡性能:
Ollama大模型推理場景下3090和4090性能實測

同時,又基於3090顯卡比較了OllamavLLM在順序調用和多併發推理場景下的性能差異:
Ollama和vLLM大模型推理性能對比實測

這裏再使用vLLM測試下大模型併發推理場景下3090和4090兩張顯卡的性能表現,看下4090是否在高併發場景下具備更高的擴展性。

在GPU算力租用平台 晨澗雲 分別租用3090顯卡和4090顯卡的vLLM雲容器進行測試。

大模型選擇

選擇 Qwen3的模型進行測試,考慮到都是24GB的顯存,選擇的是FP16精度的qwen3:8b模型進行測試。

藉助DeepSeek 生成測試腳本,調整腳本控制變量:

  • 使用複雜度近似的N個prompts;

  • MAX_TOKENS配置256,讓每次請求需要一定的生成時長便於採樣顯卡的使用指標,減少波動;

  • 選擇[1, 4, 8, 16] 4種BATCH_SIZES測試不同併發度下的性能表現;

  • 每輪測試執行3次推理,指標取平均;

  • 同時需要模型預熱,消除第一次推理響應延時過大的問題。

然後執行推理性能測試腳本,查看輸出結果。

3090推理性能

3090-vLLM大模型推理測試結果

4090推理性能

4090-vLLM大模型推理測試結果

測試結果解釋

  • Batch Size:一次推理調用的併發prompt數量

  • 平均耗時 (s):多次推理平均響應時長

  • 平均吞吐量 (tokens/s):多次推理平均Token生成速度

  • 平均顯存 (MB):多次推理平均顯存使用量

  • 平均GPU使用率(%):多次推理平均GPU使用率

3090顯卡和4090顯卡在模型推理過程中的顯存和GPU使用率都比較接近,主要看平均耗時平均吞吐量兩個指標:

Batch Size RTX 3090 RTX 4090 對比
1 平均耗時(s) 5.44 4.61
1 平均吞吐量(tokens/s) 47.10 55.60 118.0%
4 平均耗時(s) 5.61 4.87
4 平均吞吐量(tokens/s) 182.70 210.40 115.2%
8 平均耗時(s) 5.82 4.94
8 平均吞吐量(tokens/s) 351.90 414.50 117.8%
16 平均耗時(s) 6.42 5.13
16 平均吞吐量(tokens/s) 638.40 798.50 125.1%

1~8併發度場景下,3090和4090的推理性能均保持穩定,4090比3090高17%左右;在16併發度下3090開始遇到性能瓶頸,而4090顯然較3090有更充足的剩餘性能空間。

Add a new 評論

Some HTML is okay.