7M參數，幹翻巨無霸LLM！這款超小遞歸模型（TRM），在ARC-AGI上證明了“少即是多” 詳情 - 機器學習,人工智能,深度學習,自然語言處理,神經網絡 Lab4AI 博客

01 論文概述

論文標題：Less is More: Recursive Reasoning with Tiny Networks

作者團隊：三星AI實驗室（Samsung SAIL Montréal）
發佈時間：2025年9月6日
論文鏈接：https://arxiv.org/pdf/2510.04871

👉您可以跳轉到 Lab4AI 平台上去閲讀論文原文。
Lab4AI 大模型實驗室論文閲讀鏈接：
https://www.lab4ai.cn/paper/detail/reproductionPaper?utm\_source=jssq\_sf&id=cffcdeb7f3174ebf9daedd9a9482a656

👉 或者文末點擊閲讀原文，即可跳轉至對應論文頁面~

Lab4AI 提供 ✨AI 導讀和 AI 翻譯 ✨ 工具

| 研究背景與動機

當前推理模型在解決需要多步、精確推理的難題時面臨“大模型低效、小模型乏力”的矛盾。核心問題集中在大語言模型（LLMs）與層次推理模型（如 HRM）存在顯著短板：大語言模型（LLMs）是自迴歸生成答案的，會因為單個錯誤導致推理的答案錯誤。而已有研究者認為依賴鏈式推理（CoT）和測試時計算（TTC）可以增加推理準確性，但這些方法需要高質量的數據且魯棒性差。

在TRM之前，有研究者提出遞歸層次推理HRM，它模仿生物大腦，使用兩個小神經網絡在不同頻率上進行遞歸思考。HRM雖然在推理任務上超越LLMs的小模型，但是它的設計複雜、依賴不動點定理且訓練不穩定。TRM應運而生，旨在以更簡單、高效的方式實現遞歸推理。

| TRM 是什麼

10月6日，三星AI實驗室（Samsung SAIL Montréal）發表了名為Less is More: Recursive Reasoning with Tiny Networks 的論文。該論文提出了一種“少即是多”的更簡單、更高效的遞歸推理模型—Tiny Recursive Model（TRM）。

作者對HRM進行了簡化和改進。TRM僅使用一個超小的2層網絡（7M參數），通過更直接、完整的遞歸和深度監督機制，在多個基準測試上顯著超越了HRM和許多主流LLMs。其最引人注目的成果是在ARC-AGI-1上達到45%的測試準確率，超過了參數量是其數百萬倍的LLMs（如Gemini 2.5 Pro）。

| 核心架構

TRM的核心架構可以用以上圖表示。TRM的工作流程可以結合圖1和算法3直觀理解：

初始化：輸入問題、初始答案和潛在推理狀態。
深度監督循環：對於每個訓練樣本，模型進行最多次改進步驟。
潛在遞歸：在每個監督步驟中，模型執行一個“深度遞歸”過程：

（1）無梯度預熱：先進行次（如2次）完整的“潛在遞歸”，即先遞歸更新（次），再根據新的更新。此過程不計算梯度，目的是利用模型自身的計算能力初步優化答案。

（2）有梯度遞歸：最後進行1次有梯度的“潛在遞歸”，這次的反向傳播會貫穿整個遞歸過程。

損失計算與停止判斷：計算預測答案的損失以及停止概率的損失。如果停止概率超過閾值，則提前結束對該樣本的深度監督循環。
梯度更新：執行反向傳播和梯度更新，並將當前步的和截斷梯度後作為下一步的初始值。

| 核心方法與創新思路

論文的貢獻並非表面改進，而是從理論、架構、效率等層面重構遞歸推理模型。

（1）摒棄不動點定理，實現“完整遞歸反向傳播”

HRM的存在一個問題：僅反向傳播最後 2 步（1個+1個），依賴“不動點假設”，但實際未收斂，梯度計算不完整；

TRM針對這個問題，提出瞭解決方案：TRM不再假設收斂，而是直接通過整個遞歸過程（n次 latent reasoning + 1次 answer refinement）進行反向傳播。為了在深度監督中利用無梯度計算進行“預熱”，它先進行T-1次無梯度遞歸，再進行1次有梯度的遞歸。這徹底避開了IFT的理論爭議，並帶來了巨大的性能提升。

（2）重構 Latent  變量，無需分層與生物解釋

作者提出了一個更自然的解釋：其實就是當前答案的嵌入表示，而是一個純粹的中間推理狀態。因此，TRM將其重命名為（答案）和（推理狀態）。這種解釋明確了為什麼需要兩個特徵：用於記住當前解決方案，用於進行鏈式推理。

（3）單網絡替代雙網絡，參數規模減半

既然更新和更新的任務區別僅在於輸入中是否包含問題，TRM使用一個共享的微小網絡來同時完成這兩項任務。

TRM用單個2層網絡同時實現“更新（推理）”與 “更新（解優化）”，通過“輸入是否包含” 區分任務：

更新z時：輸入為（需結合問題x優化推理）；

更新y時：輸入為（無需，僅基於推理優化解）；

（4）少即是多”的規模控制

作者發現將網絡深度從4層減少到2層，同時按比例增加遞歸次數以保持總計算量，能顯著提升泛化性能。這凸顯了在小數據場景下，避免過擬合比增加模型容量更重要。

（5）無注意力架構用於固定短語長度的任務

對於固定且較小的上下文（如9x9數獨），TRM用應用於序列維度的MLP取代了自注意力機制，靈感來自MLP-Mixer。這在數獨任務上帶來了巨大提升，但在上下文較大的任務（如30x30網格）上，自注意力仍更有效。

（6）簡化 ACT 機制，消除額外前向傳播

TRM移除了需要額外前向傳播的Q-learning“繼續”損失，只保留一個基於答案正確性的二值交叉熵“停止”損失。

（7）引入 EMA，抑制小數據集過擬合

HRM在小數據集（如 1K 樣本的 Sudoku-Extreme）上易過擬合，訓練後期準確率驟降。為了在小型數據集上穩定訓練並防止過擬合，TRM採用了指數移動平均（EMA），權重更新時平滑參數（EMA decay=0.999），減少權重波動。

| 實驗設計與結果分析

論文在數獨、迷宮、ARC-AGI-1/2四個基準上的實驗結果非常令人印象深刻：

ü TRM（7M參數）全面超越了HRM（27M參數），例如在ARC-AGI-2上將性能從5.0%提升至7.8%。

ü TRM大幅超越了眾多參數量巨大的LLMs，證明了其解決複雜推理問題的巨大潛力。

這些結果強有力地支持了論文的核心理念：對於某些需要系統化推理的、數據稀缺的任務，一個參數極少但能夠進行深度遞歸計算的模型，可能比一個參數龐大但推理路徑短的模型更有效。

02 論文原文閲讀

您可以跳轉到 Lab4AI 平台上去閲讀論文原文。

👉Lab4AI 大模型實驗室論文閲讀鏈接：

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm\_source=jssq\_sf&id=cffcdeb7f3174ebf9daedd9a9482a656

👉文末點擊閲讀原文，即可跳轉至對應論文頁面~

▼ AI 翻譯——對照閲讀

▼ AI 導讀——獲取核心信息

Lab4AI.cn提供免費的AI 翻譯和AI 導讀工具輔助論文閲讀；
支持投稿復現，動手復現感興趣的論文；
論文復現完成後，您可基於您的思路和想法，開啓論文創新。
Lab4AI.cn 來送禮啦~

✅ 註冊有禮，註冊即送 30 元代金券

https://www.lab4ai.cn/register?utm\_source=jssq\_sf立即體驗

✅ 入羣有禮，入羣即送 20 元代金券

👇
羣.jpg

本文由 AI 深度解讀，轉載請聯繫授權。關注“大模型實驗室 Lab4AI”，第一時間獲取前沿 AI 技術解析！

Lab4AI 博客

Lab4AI 博客

博客 / 詳情

7M參數，幹翻巨無霸LLM！這款超小遞歸模型（TRM），在ARC-AGI上證明了“少即是多”