06:58 下午 · 11月 16 ,2025 diffusion rlhf 在使用“Diffusion RLHF”模型的過程中,我遇到了一些技術挑戰。這種模型結合了擴散模型與強化學習人類反饋(RLHF),在生成高質量數據和優化模型性能方面提供了很大的潛力。本文將記錄我解決“Diffusion RLHF”問題的經驗,具體分為幾個模塊。 背景定位 在開始之前,先給大家一個背景,講一講這個問題的起因和進展。 用户反饋:“我們的擴散模型在某些場景下生 性能調優 , 工具集 , 用户反饋 , aigc