復旦 NLP & 美團 LongCat 聯合提出 LRMs 能力評測新框架

新聞
HongKong
11
10:20 AM · Dec 02 ,2025

一、推理模型 ⾯ 臨的新挑戰

隨着 OpenAI o1 、 DeepSeek-R1 等大型推理模型(LRMs)的問世, AI 推理能力迎來了「測試時擴展」的新階段。這些模型通過長鏈思維(Long Chain-of-Thought, CoT)在數學推理、代碼生成、智能體任務等領域展現出強大能力。

然而,現有評測體系存在一個關鍵盲區:主流基準測試(如 MATH500 、AIME)主要關注獨立的單一問題,每個問題相互隔離,模型只需「---問---答」即可。

但現實應用場景往往大相徑庭:

  • 軟件開發中需要連續處理多個關聯代碼模塊
  • 數學證明需要基於前序推導逐步構建後續結論
  • 智能助手往往需要在多輪交互逐步完成複雜任務

這些真實場景要求模型具備跨任務的長鏈推理能力------不僅要解決單個子問題,更要在多個關聯任務間保持推理---致性、合理分配計算資源、實現跨步驟的反思與糾錯。

核心問題:當前大型推理模型的長鏈推理能力邊界到底在哪裏?

由於現有評測無法回答這---問題,傳統訓練數據也難以培養這種能力(如圖所示,模型在長程推理場景下表現明顯退化)。

圖 1:R1  系列模型在長程推理場景下的理論準確率與實際準確率對比

復旦大學與美團 LongCat 聯合推出 R-HORIZON------首個系統性評估與增強 LRMs 長鏈推理能力的評測框架與訓練方法。

  • 論文標題: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
  • 論文地址 : https://arxiv.org/abs/2510.08189
  • 項目主頁 : https://reasoning-horizon.github.io
  • 代碼地址 :https://github.com/meituan-longcat/R-HORIZON
  • 數據集 :https://huggingface.co/collections/meituan-longcat/r-horizon

二、方法論: Query Composition 範式

核心創新

R-HORIZON 提出了問題組合(Query Composition)方法,通過構建問題間的依賴關係,將孤立任務轉化為複雜的多步驟推理鏈。

以數學任務為例,該方法包含三個步驟:

  1. 信息提取 :從獨立問題中提取核心數值、變量等關鍵信息
  2. 依賴構建 :將前序問題的答案嵌入到後續問題的條件中
  3. 鏈式推理:模型必須順序解決所有子問題才能獲得最終答案

方法優勢

  • 靈活擴展:可自由控制推理鏈長度(n = 2, 4, 8...)
  • 精確可控:可靈活設定問題間的依賴強度
  • 高效低成本:基於現有數據集構建,無需額外人工標註

基於此方法,我們構建了 R-HORIZON Benchmark 用於系統性評估 LRMs 的多步推理能力,同時生成了長鏈推理訓練數據,通過強化學習(RLVR)提升模型性能。

圖 2:R-HORIZON 方法流程——從單 — 問題到複雜推理鏈的轉化及應用場景

三、評測基準: R-HORIZON Benchmark

數據集構成

基於 Query Composition 方法,我們構建了涵蓋 6 個代表性數據集的 R-HORIZON Benchmark:

評測發現:性能斷崖現象

我們評測了 20+ 個主流 LRMs(包括 o4-mini 、Claude-Sonnet-4 、 DeepSeek-R1 等頂級商業模型及開源模型),揭示了---個重要現象。

頂級推理模型在長鏈推理場景下均出現顯著性能下降!

主要發現:

  • 普遍性能退化:所有模型隨問題數量增加均出現明顯性能下降。DeepSeek-R1 在 AIME25 單問題場景準確率達 87.3%,但在 5 個組合問題場景下驟降至 24.6%。
  • 規模效應:更大規模的模型對多步推理挑戰表現出更強的魯棒性。
  • 任務差異:代碼生成任務相比數學任務表現出更陡峭的性能衰退;多數推理模型在網頁搜索場景中喪失工具調用能力。

圖 3:R-HORIZON Benchmark  評測結果—— 所有模型均出現顯著性能衰退

四、機制分析:推理模型的三大瓶頸

為深入理解性能斷崖的成因,我們進行了系統的機制分析,識別出當前 LRMs 的三個關鍵瓶頸:

瓶頸 1:有效推理長度受限

隨着相互依賴問題數量增加,LRMs 難以維持原有性能水平。實際準確率與理論準確率之間的差距顯著擴大。

深入分析顯示:

  • 模型錯誤集中在特定上下文範圍內
  • 7B 模型的主要錯誤範圍在 (4-6K tokens)
  • 32B 模型將範圍擴展到 (8-10K tokens)
  • 更大模型具有更長的有效推理邊界

圖 4:R1-Qwen-7B 和 R1-Qwen-32B  的準確率及錯誤位置分析

瓶頸 2: 反思機制高度局部化

對模型「反思」行為的分析發現發現:

  • 模型反思頻率隨問題數量增加而上升並趨於收斂。
  • 超過半數複雜任務 完全缺乏 長程反思 (跨越當前問題的反思)。
  • 當前 LRMs 的反思機制 高度局部化,無法支撐長鏈場景需求。

圖 5:MATH500  數據集上的反思行為分析

瓶頸 3:思考預算分配失衡

最令人意外的發現:包括 DeepSeek-R1 在內的主流 LRMs 無法有效分配思考預算

  • 模型傾向於過度分配 tokens 給早期推理階段
  • 未能合理分配資源給後續關鍵問題
  • 這種失衡嚴重影響整體推理鏈的完成質量

圖 6:不同組合問題數量下各模型的思考預算分配

五、 訓練方案:突破能力邊界

發現瓶頸後,我們進---步探索:能否通過長鏈數據的強化學習訓練突破這些限制?

訓練策略

我們基於 R-HORIZON 構建的長鏈推理數據,採用 GRPO 算法進行訓練:

  • 算法:主流 RLVR 算法 GRPO
  • 數據: R-HORIZON 組合數據(n = 2, n = 4)
  • 實驗:不同獎勵函數的對比實驗

訓練效果:雙重性能提升

實驗結果顯示:R-HORIZON 訓練不僅顯著提升長鏈任務表現,單問題性能也大幅增強!

核心數據

注:加粗數字表示該列最佳成績

圖七:不同訓練配置下的性能對比

關鍵發現

  1. 雙重提升:使用 n = 2 組合問題訓練,多步推理性能大幅提升(AIME24 n = 2 +17.4 分),單問題性能也顯著增強(AIME24 單題 +7.5 分)。
  2. 可擴展性:增加組合複雜度(n = 4)增強了模型處理更多推理步驟問題的能力,在 MATH500 (n = 8) 上達到 50.6%。

訓練帶來的質變

R-HORIZON 訓練帶來了推理機制的深層改變:

  • 更高效的推理長度:顯著改善組合任務性能,更好地泛化到更長推理鏈,同時緩解「overthinking」現象
  • 更合理的預算分配:學會在多步問題中進行更合理的 token 預算分配
  • 更長程的反思能力:促進了長程反思頻率增加,直接改善長鏈推理性能

圖 8:使用標準數據集和組合數據集進行強化學習的效果分析

六、結論與展望

R-HORIZON 標誌着大型推理模型研究的範式轉變------從「能解決什麼問題」到「能走多遠」。

技術貢獻

  • 首個長鏈推理評測基準:系統性揭示 LRMs 的能力邊界及三大瓶頸。
  • 可擴展訓練範式:提供低成本、高效率的能力提升路徑。
  • 深度機制分析:為未來推理模型改進指明方向。

閲讀更多

| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明"內容轉載自美團技術團隊"。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.