NeurIPS2025公佈最佳論文獎
2025 年 11 月 26 日,NeurIPS(神經信息處理系統大會) 正式公佈了 2025 年度最佳論文獎獲獎名單。此次獎項由最佳論文評選委員會從會議主賽道及數據集與基準賽道中遴選產生,委員會成員經程序主席、數據集與基準賽道主席提名,由大會主席、下一代與可及性主席批准,均為機器學習各領域頂尖研究者。最終共有7 篇突破性論文獲獎, 包括 4 篇最佳論文 (含1 篇數據集與基準賽道專屬獲獎論文)和 3篇優秀論文(Runner-up),覆蓋生成模型理論、強化學習、大語言模型機制、學習理論等多個核心研究方向。
最佳論文
1.《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》
核心貢獻: 針對大語言模型(LLMs)生成內容缺乏多樣性、可能導致人類思想同質化的問題,提出了大規模數據集 Infinity-Chat(含 2.6 萬條真實開放域用户查詢、3.125 萬條人類標註),構建了首個開放域提示詞綜合分類體系(6 個頂級類別、17 個子類別)。通過對 70 餘種模型的實證研究,揭示了"人工蜂羣思維(Artificial Hivemind)" 效應 —— 模型內部存在重複生成傾向,且不同模型間輸出高度同質化。同時發現現有 LLM、獎勵模型及自動評判器難以匹配人類多樣化偏好,為緩解 AI 安全風險提供了關鍵參考。
評審評價: 填補了AI 評估中創意生成、主觀偏好對齊等維度的研究空白,為 AI 系統異質性保護奠定了基礎,樹立了 "以科學認知和社會挑戰為導向" 的數據集構建新標準。
2.《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》
核心貢獻: 系統探究了門控機制對softmax 注意力的影響,通過在 150 億參數混合專家(MoE)模型和 17 億參數稠密模型(基於 3.5 萬億 token 數據集訓練)上的 30 餘種變體實驗,發現 "在縮放點積注意力(SDPA)後添加頭專屬 sigmoid 門控" 的簡單修改,可顯著提升模型性能、訓練穩定性及長上下文外推能力,同時緩解注意力 sink 問題。該機制的有效性源於引入非線性和查詢依賴的稀疏門控分數,相關代碼與模型已開源,並應用於 Qwen3-Next 系列模型。
評審評價: 研究成果具備極強的可實施性,基於工業級計算資源完成的大規模驗證為LLM 架構優化提供了可靠依據,開源行為對推動領域發展具有重要意義。
3.《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》
核心貢獻: 挑戰了強化學習(RL)難以訓練深層網絡的傳統認知,提出了適用於自監督 RL 的深層網絡構建方案。實驗表明,將網絡深度從傳統的 2-5 層擴展至 1024 層,在無演示、無獎勵的無監督目標條件設置下,可顯著提升自監督對比 RL 算法在模擬移動和操作任務中的性能,不僅提高任務成功率,還能催生更復雜的學習行為。同時強調了批次大小縮放對深層網絡對比 RL 的重要性。
評審評價: 突破了RL 與深層網絡結合的技術瓶頸,提出的範式簡單易實施,為 RL 的規模化發展提供了新路徑。
4.《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》
核心貢獻: 揭示了擴散模型避免訓練數據記憶、實現泛化的核心機制—— 隱式動態正則化。通過理論分析與實驗驗證,識別出兩個關鍵訓練時間尺度:早期為數據集無關的泛化階段(模型生成高質量樣本),後期為數據集大小依賴的記憶階段(訓練超過該階段會出現記憶現象)。其中泛化階段時長隨訓練集規模線性增長,記憶階段時長保持恆定,這一特性使模型在過參數化場景下仍能有效泛化。
評審評價: 通過隨機矩陣理論將實證觀察與形式化理論統一,為生成式AI 的泛化機制研究樹立了分析深度標杆,提供了可落地的訓練指導。
入圍論文
1.《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》
核心發現: 對"帶可驗證獎勵的強化學習(RLVR)能賦予 LLM 全新推理能力" 的主流假設提出質疑。通過在多模型家族、多算法、多基準(數學、編程、視覺推理)上的系統測試,發現 RLVR 僅提升小 k 值下的 pass@k 分數(抽樣效率),但無法激發新的推理模式 ——RLVR 模型的推理路徑均包含在基礎模型的抽樣分佈中,且訓練會縮小推理能力邊界;而蒸餾技術反而能引入新推理模式。
評審評價: 該批判性發現具有重要學術價值,為推動RL 範式創新(如持續縮放、多輪智能體 - 環境交互)提供了明確方向。
👉一鍵Lab4AI閲讀
2. 《Optimal Mistake Bounds for Transductive Online Learning》
核心貢獻: 解決了持續30 年的在線學習領域開放問題,精準量化了轉導式在線學習與標準在線學習的性能差距。證明了對於 Littlestone 維度為 d 的概念類,轉導式錯誤邊界至少為 Ω(√d),且該邊界是緊的(存在對應概念類達到此邊界),較此前的對數級下界實現指數級提升。同時改進了上界結果,揭示了轉導式學習利用未標記數據可實現二次級性能提升,這與 PAC 設置下兩者樣本複雜度相近的特性形成鮮明對比。
評審評價: 證明方法兼具創新性與嚴謹性,通過"路徑樹" 結構、稀疏編碼、危險區域最小化等多種技術的融合,構建了最優學習算法,是學習理論領域的突破性成果。
3. 《Superposition Yields Robust Neural Scaling》
核心貢獻: 提出表徵疊加(LLM 表徵的特徵數超過維度)是神經縮放定律的核心驅動因素。基於 Anthropic 玩具模型的實驗表明,弱疊加狀態下,損失僅在數據特徵頻率呈冪律分佈時遵循冪律縮放;而強疊加狀態下,得益於表徵向量的幾何重疊,損失在廣泛頻率分佈中均與模型維度呈逆冪律縮放。開源 LLM 的實證結果及 Chinchilla 縮放定律均驗證了這一結論。
評審評價: 超越了對神經縮放定律的單純觀察,深入揭示其內在機制,為優化縮放效果、預測縮放極限提供了關鍵理論支撐。
NeurIPS 2025的最佳論文獎項不僅表彰了在各自領域做出突破性貢獻的研究,也反映了當前機器學習社區對可解釋性、安全性、多樣性及理論根基的日益重視。這些工作既有紮實的理論突破,也有影響深遠的實踐指導,預計將對未來的研究方向和業界實踐產生重要影響。
👉參考鏈接
本文系學術轉載,如有侵權,請聯繫大模型實驗室Lab4AI小助手刪文
Lab4AI支撐“從研究到落地”
大模型實驗室Lab4AI實現算力與實踐場景無縫銜接,具備充足的H卡算力,支持模型復現、訓練、推理全流程使用,且具備靈活彈性、按需計費、低價高效的特點,解決用户缺高端算力、算力成本高的核心痛點。
Lab4AI.cn提供實驗平台,提供一站式科研工具鏈!
👉一鍵直達