近期 ComfyUI 社區小夥伴們用 RTX 5000 Ada 專業顯卡測試了 Flux.1[dev] 模型,並與最強消費級顯卡對比大場景實際應用中的性能表現。
測試項目:
Flux.1 文生圖
Flux.1-dev FP8 訓練
Flux.1 生成不同分辨率圖片
Flux.1 生成人物大模型+Lora+高清分辨率修復
Flux.1 測試 ControlNet 使用 Tile 高清修復
文生圖
設置尺寸均為1024*1024,採樣步數為50。
工作流:
下圖是 RTX 5000 Ada 開啓不同 Batch size 的顯存情況以及生成圖片的所耗時間。
RTX 5000 Ada 至多可支持 Batch size 到 27,消費級顯卡最多開啓 Batch size 到 10。
詳細測試結果:
開啓 Batch size 為20的顯存情況:
迭代一步時間逐漸穩定在14秒左右,整個流程花費時間755秒,大約為12.5分鐘。
開啓 Batch size 為24的顯存情況:
迭代一步時間逐漸穩定在17.5秒左右,整個流程花費時間890秒,大約為14.8分鐘。
開啓 Batch size 為27的顯存情況:
顯存已到達極限,RTX 5000 Ada Flux 生圖最大 Batch size 為27。
迭代一步時間逐漸穩定在19.5秒左右,整個流程花費時間1014秒,大約為16.9分鐘。
Flux 訓練
訓練參數:
3000步 Flux 訓練進程信息:
顯存佔用約30GB,訓練時間花費26729秒,大約7.45個小時,迭代一步花費時間在8.6秒左右。
5000步 Flux 訓練進程信息:
訓練時間花費43174秒,約為11.99小時。
在 Flux 訓練過程中,由於消費級顯卡最多隻有24GB,而當 Batch size 開到6時,顯存佔用就已到30GB,消費級顯卡 的24GB顯存無法支持更深的 Flux 訓練,因此 RTX 5000 Ada 的32GB顯存能夠支持更深度的訓練,有着更強的生產力。
測試生成不同分辨率圖片的所耗時間
統一 Batch size 為4,採樣步數為50,測試結果如下:
測試人物大模型+Lora+高清分辨率修復
(統一迭代步數和生成批次數量)
工作流:
用 Flux 人物大模型加上 Lora 出圖,並將圖片尺寸從10801920高清修復為21603840,共用時302秒,約5分鐘。
測試 ControlNet 使用 Tile 高清修復
後台進程:
工作流:
顯存佔用22GB,修復一張圖片花費23.94秒。此場景消費級顯卡較為勉強。
測試結論
從上述五項測試中可以看到在高 Batch size 場景下,RTX 5000 Ada 有着更大的顯存容量可以支持更深度的 AI 生圖和訓練。