動態

詳情 返回 返回

大模型強化學習的熵控制:CE-GPPO、EPO與AsyPPO技術方案對比詳解 - 動態 詳情

LLM的強化學習訓練最近進展很快,SOTA模型在各種推理benchmark上的表現確實亮眼。但更值得關注的其實是另一條信息——從Rutgers到Alibaba再到HKUST,這些研究團隊正在攻克的是RL領域的一個老大難:怎麼控制好熵,同時避免模型退化成毫無用處的確定性輸出。

三篇新論文給出了不同角度的解法:CE-GPPO、EPO和AsyPPO。雖然切入點各有不同,但合在一起就能發現它們正在重塑大規模推理模型的訓練方法論。下面詳細説説這三個工作到底做了什麼。

標準PPO在熵控制上的失效

先説policy entropy這個概念。熵衡量模型輸出的隨機性或者説多樣性程度——高熵對應探索不同解法,低熵則是鎖定單一策略。經典PPO算法的做法很簡單:importance sampling ratio超出(1−ε, 1+ε)範圍就直接clip掉。

這樣的話問題出在哪?PPO的clipping會把低概率token的梯度信息扔掉,而這些token在推理任務裏恰恰很關鍵。比如讓模型做AIME 2025的題目,或者讓它完成一個30輪的科學實驗,那些探索性的、概率不高的路徑往往藏着突破口。標準PPO的策略感覺這個路徑"太冒險了,clip掉算了",結果就是:

熵坍縮:模型太快變成確定性的,卡在平庸策略上出不來;熵爆炸:模型亂探索,根本收斂不了

具體例子就是在ScienceWorld這種多步驟、稀疏reward的環境裏跑一下原版PPO就知道了,entropy會劇烈震盪,模型啥也學不到。

CE-GPPO:有界梯度恢復機制

快手提出的CE-GPPO(Controlling Entropy via Gradient-Preserving Policy Optimization)核心思路是用有界的方式把被clip掉的梯度拿回來

Token的四類劃分

CE-GPPO按概率和advantage把token分成四類:

  • PAHP (Positive Advantage, High Probability):模型喜歡的、該強化的token
  • NALP (Negative Advantage, Low Probability):差的探索token,要抑制
  • PALP (Positive Advantage, Low Probability):好的探索token,這是論文説的金子
  • NAHP (Negative Advantage, High Probability):高概率但該減少的token

標準PPO直接clip掉PALP和NALP,這樣梯度信號全丟了,而CE-GPPO用係數α₁和α₂把它們重新引入:

stop-gradient操作允許獨立調節α₁(exploitation強度)和α₂(exploration強度)。設α₁=0、α₂=1就退化成DAPO的clip-higher trick,但CE-GPPO的框架靈活得多。

實驗結果:在DeepSeek-R1-Distill-Qwen-7B上測試,CE-GPPO在AIME24達到66.0(DAPO是59.7),AIME25拿到51.4(DAPO是48.7)。最優配置是α₁=0.75、α₂=1,這個設置鼓勵PALP token的探索,同時温和約束NALP token避免過度探索。

為什麼work

理論依據:CE-GPPO的梯度幅度被bounded在α₁(1−ε)或α₂(1+ε)範圍內,trust region不會被破壞。但關鍵是從那些有信息價值的token裏恢復了signal。

訓練曲線的數據很説明問題,CE-GPPO的entropy保持得相當穩,不像GRPO那樣先暴跌再爆炸。

EPO:針對多輪交互的時序平滑

EPO(Entropy-regularized Policy Optimization)是Rutgers和Adobe的工作,針對的場景完全不同,它主要研究的是那種需要30多步action才能拿到success/fail信號的多輪交互環境。

級聯失效的兩個階段

EPO發現了所謂的exploration-exploitation cascade failure,分兩個phase:

Phase 1(步驟0-40):稀疏reward導致早期過度探索。agent亂試一通,養成一堆壞習慣

Phase 2(步驟40+):早期的混亂會propagate到後續步驟。entropy一直很高,agent持續震盪,根本形成不了連貫策略

根本原因是傳統entropy regularization對時序不敏感,每個timestep都是單獨處理的。但在多輪任務裏,早期選擇會cascade影響整條trajectory的結果。

EPO的方案:歷史熵錨定

EPO的核心創新是entropy smoothing regularizer。不是簡單加個loss項,而是維護一個歷史窗口,記錄過去訓練步驟的平均entropy。smoothing loss會懲罰偏離:

這樣就給entropy加了"護欄",通常設κl=0.8、κr=1.2,不會讓它跑偏太遠。完整loss是:

動態係數β_k按指數schedule變化,早期訓練時較小(温和平滑),後期逐漸增大(強力穩定)。這直接對抗兩階段級聯失敗。

實驗結果:ScienceWorld上,PPO+EPO比vanilla PPO提升152.1%(96.8 vs 38.4平均成功率)。ALFWorld上GRPO+EPO有19.8%提升,穩定性很好。

一個反理論的發現

流行的entropy decay schedule在多輪環境裏不管用。大家都被教育要"早期探索、後期利用",但EPO的實驗數據表明,對於稀疏reward的agent來説這策略有問題。episode內部過早exploit會鎖定糟糕的初始action,錯誤會波及整個run。正確做法是在trajectory所有步驟保持穩定的exploration pressure,再配合一點smoothing。

AsyPPO:小規模critic集成方案

HKUST、Mila和Alibaba合作的AsyPPO(Asymmetric Proximal Policy Optimization)解決的是另一個問題:讓critic在LLM規模的RL訓練裏重新變得可用。

小模型能指導大模型嗎

經典PPO用對稱actor-critic架構:actor 14B參數,critic也是14B。GRPO這類新方法乾脆扔掉critic,改用group-average baseline。雖然work但丟失了proper value estimation帶來的穩定性和bias reduction。

AsyPPO提出了一個問題:1.7B或4B的小critic能不能guide 14B的大actor?然後給出了答案:可以,但前提是方法得對。

集成策略

單個小critic不行,value estimate太noisy。AsyPPO用兩個小critic,在disjoint的prompt-level數據分片上訓練。每個問題的rollout responses一半給Critic 1,一半給Critic 2。這保證:

多樣性:從不同response distribution學習

同步性:看到相同prompts,保持calibration

corrected advantage用兩個critic的value estimate平均值:

這裏δ_t^mean來自V₁和V₂的均值,比單個critic的bias要小。

基於不確定性的門控

AsyPPO把inter-critic disagreement當signal用。每個state算critic之間value的標準差,然後:

Advantage Masking:σ_t很低的state(critic強烈一致),mask掉advantage。這些是boring的、over-visited的state,沒有學習信號,不值得花梯度更新

Entropy Filtering:σ_t很高的state(critic強烈disagree),從entropy regularization裏filter掉。這些是ambiguous或noisy的state(比如filler token "umm"、"well"),exploration沒意義

loss變成:

I_A mask低σ state,I_H從entropy裏filter高σ state。

實驗結果:AsyPPO在math benchmarks(AIME24/25、MATH-500等)上比GRPO提升約3%,內存佔用比對稱PPO少20%。最優配置是兩個4B critic guide一個14B actor。更多critic有幫助但兩個就夠拿到主要收益了。

非對稱架構為什麼現在可行

上面幾個方法的關鍵點是pretrained LLM有豐富的representational prior。哪怕1.7B的預訓練模型,也有足夠world knowledge去evaluate 14B actor的behavior。這在經典RL(Atari、MuJoCo)裏不成立,因為那些agent都是從零開始學,所以可以非對稱actor-critic setup是LLM時代獨有的可行方案。

三者的統一視角

這三篇論文其實構成了一個coherent narrative:

CE-GPPO:恢復被clip token的梯度,在單個訓練步內控制entropy,平衡PALP(exploration)和NALP(exploitation)

EPO:用歷史平滑在訓練步之間控制entropy,防止多輪場景的cascade failure

AsyPPO:用小型ensemble高效恢復critic,再利用critic uncertainty做learning signal的門控(mask boring state、從entropy裏filter noisy state)

後續方向

下一步應該可以把這些方法組合起來。比如:

在AsyPPO的uncertainty-filtered updates裏用CE-GPPO的α₁、α₂調節

把EPO的歷史平滑應用到CE-GPPO的gradient-preserved entropy上

把AsyPPO的critic ensembles擴展到多輪agent場景,配合EPO的trajectory-aware loss

三種方法都在解決同一個核心問題:更聰明地判斷何時、如何讓模型exploration vs exploitation。只是角度不同——gradient(CE-GPPO)、時序(EPO)、critic uncertainty(AsyPPO)。這些細節上的差異,決定了模型是停在平庸水平,還是能真正crack掉AIME難題或者reliable地控制機器人。

https://avoid.overfit.cn/post/f7fe0bdff36c4c7a906c9ee678df11a4

作者:Aditya Dubey

user avatar xinggandemuer_b5u1v2 頭像 maimengdegongjian 頭像 wennuandedasuan_c6gnoc 頭像
點贊 3 用戶, 點贊了這篇動態!
點贊

Add a new 評論

Some HTML is okay.