清華與快手聯手推出新型 SVG 擴散模型，訓練效率暴增 6200% - News Detail

清華大學與快手可靈團隊合作推出了一款名為 SVG（無 VAE 潛在擴散模型）的新型生成模型。此次創新不僅在訓練效率上實現了6200% 的驚人提升，而且在生成速度上更是達到了3500% 的飛躍。

VAE 在圖像生成領域的衰退，主要源於其存在的 “語義糾纏” 問題。也就是説，當我們嘗試僅僅改變圖像中某一特徵（如貓的顏色）時，其他特徵(如體型、表情)往往也會受到影響，導致生成的圖像不夠精準。為了解決這個問題，清華與快手的 SVG 模型採取了不同的策略，主動構建了一個融合語義與細節的特徵空間。

在 SVG 模型的設計中，團隊首先使用 DINOv3預訓練模型作為語義提取器，該模型經過大規模的自監督學習，能夠有效識別和分離不同類別的特徵，解決了傳統 VAE 模型中的語義混亂。此外，為了補充細節，團隊還特別設計了一個輕量級的殘差編碼器，確保細節信息不會與語義特徵相沖突。關鍵的分佈對齊機制則進一步增強了這兩種特徵的融合，保證了生成圖像的高質量。

實驗結果表明，SVG 模型在生成質量和多任務通用性方面，全面超越了傳統的 VAE 方案。在 ImageNet 數據集上，SVG 模型在僅訓練80個週期時，FID 值（衡量生成圖像與真實圖像相似度的指標）達到6.57，遠超同規模的 VAE 模型;而在推理效率上，SVG 模型也顯示出卓越的性能，在較少的採樣步驟下即可生成清晰圖像。此外，SVG 模型的特徵空間還可直接用於圖像分類、語義分割等多種視覺任務，無需額外微調，大大提高了應用的靈活性。