一篇論文，看見百度廣告推薦系統在大模型時代的革新詳情 - 百度百度Geek説博客

我們見證了 DeepSeek R1，用強大的推理能力再次點燃 AI 智力增長的火箭。

在上個星期，OpenAI 給 GPT-4o 的一波圖像生成更新又讓全網陷入了梗圖、甚至玩梗視頻製造的火熱氛圍中。

用 GPT-4o 渲染過的《星際穿越》電影片段。

AI 的「想象力」一次又一次震撼着我們，基於先進大模型的應用正在越來越多的領域引發革命，被改變的也包括科技領域本身。

比如，生成式 AI 正在改變人們獲取信息的方式。很多人認為，大型語言模型（LLM）既然強於生成和推理，那麼應該也能從用户的歷史行為中洞察出深層次的興趣，進而為推薦系統找到全新的可能性。

既然生成式 AI 能通過已知上下文預測生成新內容，那麼已知一些人們感興趣的內容，AI 應該也可以預測出他們的下一個興趣點。這個預測的內容可以是一篇文章、一段視頻、某個品牌的商品或是 App 上的服務。

近日，百度推薦廣告團隊在廣告生成式推薦取得了新成果，其構建的生成式 AI 推薦系統實現了前所未有的效果。

論文標題：Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations
論文 ArXiv：https://arxiv.org/pdf/2503.02453

在科技行業中，推薦系統雖不如圖像生成、代碼生成那樣具有極高的討論度，但一直是數字生態舉足輕重的一部分。它在電商平台、視頻 App 和社交網絡上廣泛出現，是提供符合用户偏好個性化內容的核心技術。

ChatGPT 推出以來，生成式檢索（Generative Retrieval）逐漸成為了推薦系統領域最熱門的研究方向。與傳統的序列推薦方法不同的是，生成式模型可以根據用户的行為更加直接的進行預測，由 AI 模型處理複雜的用户 - 商品交互，可以提供推理和小樣本學習等新能力，大幅提高推薦準確性和多樣性。

儘管把生成式 AI 引入推薦系統的創新已有不少，但與序列密集檢索方法相比，生成式檢索方法仍然面臨一些挑戰，比如它們往往難以進行細粒度相似性建模。

谷歌的 TIGER 是推薦系統生成檢索的知名方法，如圖 1（左下）所示；百度則新提出了級聯組織雙表徵生成式檢索（Cascaded Organized Bi-Represented generAtive Retrieval，COBRA），這是一個將生成式和密集檢索高效融合的框架。圖 1（右）展示了 COBRA 的推理範式。

COBRA 研究的主要貢獻如下：

級聯雙表示的檢索框架：COBRA 作為一種新型生成式推薦框架，可在生成稀疏 ID 和稠密向量之間交替。通過將稠密表示合併到 ID 序列中，COBRA 彌補了基於 ID 的方法固有的信息損失。使用稀疏 ID 作為生成稠密向量的條件可以降低稠密表示的學習難度。
端到端訓練可學習的稠密表示：COBRA 利用原始特徵數據作為輸入，通過端到端訓練生成稠密表示。與靜態嵌入不同，COBRA 的稠密向量是動態學習的，可捕獲語義信息和細粒度細節。
生成過程由粗到細：在推理過程中，COBRA 首先生成稀疏 ID，然後將其反饋到模型中以生成精細的稠密表示，從而提取細粒度興趣表徵。此外，該研究還提出了 BeamFusion 來實現推薦多樣性和精度的靈活可控。
全面的實證驗證：通過對多個基準數據集的大量實驗，研究證明了 COBRA 在推薦準確率方面的表現優於現有的 SOTA 方法，驗證了 COBRA 在推薦任務中真實有效性。

01 生成式檢索幾波技術演進

其實，在形成如今 COBRA 方案之前，百度研究團隊針對廣告場景中的生成式推薦任務，經歷了多個階段的技術探索，並針對暴露出來的技術缺陷持續優化與完善。

在生成式推薦任務中，大模型要預測的 item 是綜合體（如廣告標題、品牌、多模信息等）⽽並⾮簡單的 token。因此，1）如何對 item 進行表徵，2）基於表徵進行序列建模是生成式推薦的兩個核心問題。

最開始，百度採用了「純⽂本表徵 + LLM 建模」的方案，直接利用 LLM 進行推薦。通過標題、落地頁等文本來表徵 item，雖然可以輔助理解用户意圖、提升可解釋性，但超長的輸入導致了巨大的資源和性能開銷，運行成本較高。隨後嘗試通過短語來表徵 item，但短語很容易出現信息壓縮過度、表達不全的情況，難以全面描述 item 的各種屬性。此外，item 之間的序列關係偏重興趣協同而並非單純的語義關係，與 LLM 建模的語義關係存在着鴻溝。

在意識到無法簡單的直接使用現有方法後，研究團隊開始考慮對 item 進行壓縮表達，全面滿足性能、信息完備、item 關係建模的要求。

因此，研究團隊形成了「稠密表徵 + 對⽐學習度量」的方案，核心在於將 item 表徵為稠密向量。為此，他們引入了一個編碼器逐個對 item 內容進行編碼，使得 item 序列轉變為一組向量序列並輸入到一個 Causal Decoder 中；接着通過 Next Item Prediction 的方式完成模型訓練，在訓練中引入對比學習，使得編碼器、解碼器能夠同步更新。在推理階段，算法通過編碼器輸出 item 向量來構建索引，並通過向量序列輸入到解碼器中獲取用户表徵，最終完成 ANN 召回。

這一方案的優勢在於表達能力強，可以完整利用 item 原始信息，對比學習保證了端到端訓練，進一步建模序列中隱含的協同信息。雖然 item 信息利用和序列關係建模兩大關鍵問題得到了有效解決，但仍然是在較大稠密空間上建模，缺少了興趣探索過程，建模複雜度並未降低。

「稠密表徵 + 對⽐學習度量」方案概覽。

接下來，研究團隊受到谷歌 TIGER 的啓發，嘗試了「稀疏表徵 + 稀疏 ID ⽣成」的方案，通過稀疏 ID 來表徵 item。

完整的實現過程是這樣的：首先通過商業預訓練模型對廣告特徵進行嵌入，然後使用殘差量化變分自編碼器（RQ-VAE）將嵌入向量量化為帶層次結構的 ID Tuple（如 L1、L2、L3），最後將 ID 序列輸入到 Causal Transformer 並通過下一個 ID 預測來建模序列。在推理階段，在給定行為序列的情況下，模型可以通過自迴歸方式來生成下一個可能的廣告 ID。

稀疏表徵的引入充分發揮出了「嵌入 + 量化」的作用，將 item 轉化為 ID，使模型在壓縮空間中學習用户興趣轉移，尤其適合高度個性化推薦場景中的「千人千面廣告推送」。然而，受限於相互隔離的「嵌入、量化、序列建模」，不可避免地出現了信息損失，導致對用户偏好的精細變化捕捉效果較弱。

在嘗試了以上技術方案之後，研究團隊認識到了單一表徵方式難以同時兼顧粗粒度類別信息和細粒度特徵信息的侷限性，提出了 COBRA 框架，通過級聯方式融合稀疏 ID 和稠密向量表徵，形成了「稀疏 - 稠密級聯表徵 + ⽣成度量⼀體化」方案，大大增強了模型的靈活性和適應性。

02 COBRA 框架的四大創新

下圖為 COBRA 的整體框架，在集成了級聯稀疏 - 稠密表徵和由粗到細生成之後，實現了當前 SOTA 級別的推薦性能。

一是級聯稀疏 - 稠密表徵。

過程中，級聯表徵將稀疏 ID 和稠密向量集成在一個統一的生成式模型中。對於每個 item，它的稀疏 ID 和稠密向量組合起來以形成級聯表徵。這樣做可以兼顧稀疏與稠密表徵的優點，獲得更全面的 item 特徵，其中稀疏 ID 通過離散約束提供穩定的類別基礎信息，稠密向量確保模型捕獲高級語義和細粒度細節。

二是交替學習的序列建模。

得益於級聯表徵的方式，方案中將目標 item 的概率分佈建模分為兩個階段，以利用稀疏與稠密表徵的互補優勢。COBRA 沒有選擇基於歷史交互序列來直接預測下一個 item，而是轉為交替預測稀疏 ID 和稠密向量。具體來説，採用 Causal Transformer 統一生成式模型接收級聯表徵作為輸入，從而捕獲序列依賴關係。

三是端到端訓練。

COBRA 的端到端訓練過程旨在同時優化稀疏和稠密表徵預測。訓練過程由一個複合損失函數控制，該函數結合了稀疏 ID 預測和稠密向量預測的損失。稀疏 ID 預測損失在基於歷史序列預測下一個稀疏 ID 的過程中，保證了模型的效率；稠密向量預測損失用於細化稠密向量。同時，該稠密向量由端到端的可訓練編碼器生成，並在訓練過程中進行優化，從而適應不同推薦任務的特定需求。

這種雙目標的損失函數可以實現均衡的優化過程，使模型在稀疏 ID 的指導下動態地細化稠密向量，同時端到端的訓練方法可以捕獲高級語義和協同信息。

最後是由粗到細生成。

作為一種高效的策略，這有助於模型解耦與模塊優化，並在保證候選多樣化與覆蓋性的同時進一步提高精度。在推理階段，COBRA 採用由粗到細的生成過程，先生成稀疏 ID，後細化稠密向量，如下圖 3 所示。

具體地，首先基於⽤户歷史交互序列，使用 Transformer 解碼器建模的 ID 概率分佈，並利用 BeamSearch 算法生成下一個 item 的稀疏 ID。然後，將⽣成的稀疏 ID 追加到輸⼊序列中，作為條件進⼀步⽣成對應的稠密向量，捕獲 item 的細粒度特徵。同時引⼊ BeamFusion 機制，並結合 BeamSearch 和近鄰檢索分數，在確保推薦精度的同時保證召回⼴告候選的多樣性。

由粗到細的生成過程。

COBRA 框架為生成式推薦領域提供了一個的新範式。

03 多場景性能提升已實際應用

實測效果如何？研究團隊使用公開和工業數據集對 COBRA 框架進行了全面評估，並重點展示了 COBRA 提升推薦準確率和多樣性的能力，並通過離線和在線評估來驗證實際效果。大量實驗表明，COBRA 優於目前業內最先進的方法。

在公開數據集上，研究團隊使用了 Amazon Product Reviews 數據集，並重點分析了「Beauty」、「Sports and Outdoors」以及「Toys and Games」三個子集。

實現結果如下表 2 所示，其中在「Beauty」數據集上，COBRA 的 Recall@5 和 Recall@10 相比之前的最佳模型 TIGER 分別提升了 18.3% 和 11.9%；在「Sports and Outdoors」數據集上，COBRA 的 Recall@5 和 NDCG@10 相比 TIGER 分別提升了 15.5% 和 18.8%；在「Toys and Games」數據集上，COBRA 的 Recall@10 和 NDCG@10 相比 TIGER 分別提升了 24.5% 和 19.2%。

對於行業數據集，研究團隊採用了 Baidu Industrial 數據集，它基於百度廣告平台上的用户交互日誌構建，涵蓋了列表頁、雙欄、短視頻等多種推薦場景，包含了 500 萬用户和 200 萬條廣告，全面展現了真實用户行為和廣告內容。

為了驗證本文策略的有效性，研究團隊對 COBRA 以及移除稀疏 ID 的變體 COBRA w/o ID、移除稠密向量的變體 COBRA w/o Dense 以及移除 BeamFusion 的變體 COBRA w/o BeamFusion 進行了比較。結果如下表 3 所示，相較於三種變體，COBRA 均體現出了優勢，從而驗證了該框架中各個組件的有效性。

在 K=800 時，COBRA 的召回率為 0.4466，相較沒有稀疏 ID 的變體提升了 43.6%，相較沒有 BeamFusion 的變體提升了 36.1%。

為了評估 COBRA 的表徵學習能力，研究團隊對廣告稠密嵌入展開相似度矩陣分析，如下圖 4 所示，展現了 COBRA 模型的類別內聚性和類別間分離性。相反，沒有稀疏 ID 的模型變體顯示出較弱的類別間分離性（圖 4b），加入稀疏 ID 則可以增強內聚性和分離性（圖 4c 差異矩陣定量分析）

這意味着 COBRA 不僅能夠將同⼀類別的項目緊密地聚集在⼀起，還能將不同類別的項⽬有效地區分開來，從而在推薦時能夠更精準地捕捉⽤户的興趣點。

進一步的可視化廣告嵌入分佈驗證了 COBRA 的嵌入能力。通過隨機抽取一萬個廣告，研究團隊觀察到了不同廣告嵌入形成了明顯的聚類中心，如下圖 5 所示。我們可以看到，紫色、青色、淺綠色和深綠色聚類主要分別對應小説、遊戲、法律服務和衣物廣告。

由於與大量業務直接相關，推薦系統是一個很「卷」的領域，在百度的研究中，工程師們把 COBRA 最終策略投放到真實生產環境上跑了一圈，在 A/B 測試中實現了轉化率增加 3.6%，ARPU（平均每用户收入）增加 4.15% 的好成績。

這些業務指標提升表明，COBRA 不僅在離線評估中表現出色，還能夠在實際生產環境中帶來可衡量的商業價值，目前該方法在百度廣告推薦業務中已經全量上線。

04 結語

經過一系列提升和改進，生成式 AI 已經可以做到表達清晰、預測準確，並在百度的廣告推薦系統中實現了應用。與很多領域一樣，推薦系統正在向着需求個性化的方向快速發展，而在這個方向上，AI 提供的解決方案已經展現出了獨特的優勢。

對於普通人來説，在各種 App 上，大模型驅動的推薦系統可以幫助我們獲取更多有用的內容，讓信息流更加聰明。

對於科技公司而言，或許在幾年之內，AI 驅動的業務就可以從目前的局部智能化進化到「需求預測 - 生產調度 - 倉儲物流 - 營銷交付」的全流程智能化階段。

未來，AI 應用的深度將決定業務的增長速度。

------END------

推薦閲讀

前沿多模態模型開發與應用實戰3：DeepSeek-VL2多模態理解大模型算法解析與功能搶先體驗

秒噠首發即爆發！上線首日吸引2萬用户，打造3萬應用！

秒噠，全面開放！

圖靈數據洞察平台-TDF（Turing Data Finder）

兩連發！文心大模型4.5及X1，上線千帆！

百度Geek説博客

百度Geek説博客

博客 / 詳情