博客 / 詳情

返回

7M參數,幹翻巨無霸LLM!這款超小遞歸模型(TRM),在ARC-AGI上證明了“少即是多”

01 論文概述

1.png

論文標題:Less is More: Recursive Reasoning with Tiny Networks

作者團隊:三星AI實驗室(Samsung SAIL Montréal)
發佈時間:2025年9月6日
論文鏈接:https://arxiv.org/pdf/2510.04871

👉您可以跳轉到 Lab4AI 平台上去閲讀論文原文。
Lab4AI 大模型實驗室論文閲讀鏈接:
https://www.lab4ai.cn/paper/detail/reproductionPaper?utm\_source=jssq\_sf&id=cffcdeb7f3174ebf9daedd9a9482a656

👉 或者文末點擊閲讀原文,即可跳轉至對應論文頁面~
2.png

Lab4AI 提供 ✨AI 導讀 和 AI 翻譯 ✨ 工具

| 研究背景與動機

當前推理模型在解決需要多步、精確推理的難題時面臨“大模型低效、小模型乏力”的矛盾。核心問題集中在大語言模型(LLMs)與層次推理模型(如 HRM)存在顯著短板:大語言模型(LLMs)是自迴歸生成答案的,會因為單個錯誤導致推理的答案錯誤。而已有研究者認為依賴鏈式推理(CoT)和測試時計算(TTC)可以增加推理準確性,但這些方法需要高質量的數據且魯棒性差。

在TRM之前,有研究者提出遞歸層次推理HRM,它模仿生物大腦,使用兩個小神經網絡在不同頻率上進行遞歸思考。HRM雖然在推理任務上超越LLMs的小模型,但是它的設計複雜、依賴不動點定理且訓練不穩定。TRM應運而生,旨在以更簡單、高效的方式實現遞歸推理。

| TRM 是什麼

10月6日,三星AI實驗室(Samsung SAIL Montréal)發表了名為Less is More: Recursive Reasoning with Tiny Networks 的論文。該論文提出了一種“​少即是多​”的更簡單、更高效的遞歸推理模型—Tiny Recursive Model(TRM)。

作者對HRM進行了簡化和改進。TRM僅使用一個超小的2層網絡(7M參數),通過更直接、完整的遞歸和深度監督機制,在多個基準測試上顯著超越了HRM和許多主流LLMs。其最引人注目的成果是在ARC-AGI-1上達到45%的測試準確率,超過了參數量是其數百萬倍的LLMs(如Gemini 2.5 Pro)。

| 核心架構

3.png

TRM的核心架構可以用以上圖表示。TRM的工作流程可以結合圖1和算法3直觀理解:

  1. 初始化:輸入問題、初始答案和潛在推理狀態。
  2. 深度監督循環:對於每個訓練樣本,模型進行最多次改進步驟。
  3. 潛在遞歸:在每個監督步驟中,模型執行一個“深度遞歸”過程:

(1)無梯度預熱:先進行次(如2次)完整的“潛在遞歸”,即先遞歸更新(次),再根據新的更新。此過程不計算梯度,目的是利用模型自身的計算能力初步優化答案。

(2)有梯度遞歸:最後進行1次有梯度的“潛在遞歸”,這次的反向傳播會貫穿整個遞歸過程。

  1. 損失計算與停止判斷:計算預測答案的損失以及停止概率的損失。如果停止概率超過閾值,則提前結束對該樣本的深度監督循環。
  2. 梯度更新:執行反向傳播和梯度更新,並將當前步的和截斷梯度後作為下一步的初始值。

| 核心方法與創新思路

論文的貢獻並非表面改進,而是從理論、架構、效率等層面重構遞歸推理模型。

​(1)​摒棄不動點定理,實現“完整遞歸反向傳播”

HRM的存在一個問題:僅反向傳播最後 2 步(1個+1個),依賴“不動點假設”,但實際未收斂,梯度計算不完整;

TRM針對這個問題,提出瞭解決方案:TRM不再假設收斂,而是直接通過整個遞歸過程(n次 latent reasoning + 1次 answer refinement)進行反向傳播。為了在深度監督中利用無梯度計算進行“預熱”,它先進行T-1次無梯度遞歸,再進行1次有梯度的遞歸。這徹底避開了IFT的理論爭議,並帶來了巨大的性能提升。

​(2)​重構 Latent ​ 變量,無需分層與生物解釋

作者提出了一個更自然的解釋:其實就是當前答案的嵌入表示,而是一個純粹的中間推理狀態。因此,TRM將其重命名為(答案)和(推理狀態)。這種解釋明確了為什麼需要兩個特徵:用於記住當前解決方案,用於進行鏈式推理。

​(3)​單網絡替代雙網絡,參數規模減半

既然更新和更新的任務區別僅在於輸入中是否包含問題,TRM使用一個共享的微小網絡來同時完成這兩項任務。

TRM用單個2層網絡同時實現“更新(推理)”與 “更新(解優化)”,通過“輸入是否包含” 區分任務:

更新z時:輸入為(需結合問題x優化推理);

更新y時:輸入為(無需,僅基於推理優化解);

​(4)​少即是多”的規模控制

作者發現將網絡深度從4層減少到2層,同時按比例增加遞歸次數以保持總計算量,能顯著提升泛化性能。這凸顯了在小數據場景下,避免過擬合比增加模型容量更重要。

​(5)​無注意力架構用於固定短語長度的任務

對於固定且較小的上下文(如9x9數獨),TRM用應用於序列維度的MLP取代了自注意力機制,靈感來自MLP-Mixer。這在數獨任務上帶來了巨大提升,但在上下文較大的任務(如30x30網格)上,自注意力仍更有效。

6​)​簡化 ACT ​機制,消除額外前向傳播

TRM移除了需要額外前向傳播的Q-learning“繼續”損失,只保留一個基於答案正確性的二值交叉熵“停止”損失。

​(7)引入 EMA​,抑制小數據集過擬合

HRM在小數據集(如 1K 樣本的 Sudoku-Extreme)上易過擬合,訓練後期準確率驟降。為了在小型數據集上穩定訓練並防止過擬合,TRM採用了指數移動平均(EMA),權重更新時平滑參數(EMA decay=0.999),減少權重波動。

| 實驗設計與結果分析

論文在數獨、迷宮、ARC-AGI-1/2四個基準上的實驗結果非常令人印象深刻:

ü TRM(7M參數)全面超越了HRM(27M參數),例如在ARC-AGI-2上將性能從5.0%提升至7.8%。

ü TRM大幅超越了眾多參數量巨大的LLMs,證明了其解決複雜推理問題的巨大潛力。

這些結果強有力地支持了論文的核心理念:對於某些需要系統化推理的、數據稀缺的任務,一個參數極少但能夠進行深度遞歸計算的模型,可能比一個參數龐大但推理路徑短的模型更有效。

02 論文原文閲讀

您可以跳轉到 Lab4AI 平台上去閲讀論文原文。

👉Lab4AI 大模型實驗室論文閲讀鏈接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm\_source=jssq\_sf&id=cffcdeb7f3174ebf9daedd9a9482a656

👉文末點擊閲讀原文,即可跳轉至對應論文頁面~
4.png

▼ AI 翻譯——對照閲讀
5.png

▼ AI 導讀——獲取核心信息
6.png

  • Lab4AI.cn提供免費的AI 翻譯和AI 導讀工具輔助論文閲讀;
  • 支持投稿復現,動手復現感興趣的論文;
  • 論文復現完成後,您可基於您的思路和想法,開啓論文創新。
    Lab4AI.cn 來送禮啦~

✅ 註冊有禮,註冊即送 30 元代金券

https://www.lab4ai.cn/register?utm\_source=jssq\_sf立即體驗

✅ 入羣有禮,入羣即送 20 元代金券

👇
羣.jpg

本文由 AI 深度解讀,轉載請聯繫授權。關注“大模型實驗室 Lab4AI”,第一時間獲取前沿 AI 技術解析!

user avatar turing_interview 頭像 kestrel_task 頭像 u_17349038 頭像
3 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.