今天,美團 LongCat 團隊正式發佈全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 極致速度的同時,全新發布的 LongCat-Flash-Thinking 更強大、更專業。綜合評估顯示,LongCat-Flash-Thinking 在邏輯、數學、代碼、智能體等多個領域的推理任務中,達到了全球開源模型的最先進水平(SOTA)。
同時,LongCat-Flash-Thinking 不僅增強了智能體自主調用工具的能力,還擴展了形式化定理證明能力,成為國內首個同時具備「深度思考+工具調用」與「非形式化+形式化」推理能力相結合的大語言模型。我們發現,尤其在超高複雜度的任務(如數學、代碼、智能體任務)處理上, LongCat-Flash-Thinking 具備更顯著的優勢。目前, 該模型已在HuggingFace、Github全面開源:
- Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
- Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking
創新架構,實現高效推理與穩定訓練
領域並行強化學習訓練方法(Domain-Parallel RL Training)
為了解決強化學習領域混合訓練的穩定性問題,我們設計了一種領域並行方案,將STEM、代碼和智能體任務的優化過程解耦。這一方法採用了多領域並行訓練再融合的先進策略,實現模型能力的均衡提升,綜合性能達到帕累托最優(Pareto-Optimal)。
異步彈性共卡系統(Dynamic ORchestration for Asynchronous rollout -- DORA)
我們的異步彈性共卡系統(DORA)是整個訓練的基石。該系統通過彈性共卡調度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設計,在實現相較於同步RL訓練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統進一步實現了高效的 KV 緩存複用,能夠支撐萬卡規模集羣的穩定運行。
智能體推理框架(Agentic Reasoning Framework)
為進一步提升模型的智能體推理能力,我們提出了創新性的“雙路徑推理框架”。該框架能夠自主篩選最優查詢樣本,並通過自動化流程將智能體推理與工具使用相結合,使模型能夠智能識別並調用外部工具(如代碼執行器、API等),從而高效解決複雜任務。基於AIME25實測數據,LongCat-Flash-Thinking在該框架下展現出更高效的智能體工具調用(Agentic Tool Use)能力,在確保90%準確率的前提下,相較於不使用工具調用節省了64.5%的Tokens(從19653到6965),顯著優化了推理過程的資源利用率。
形式化推理框架(Formal Reasoning Framework)
為了克服當前開源通用大型語言模型在形式化證明任務中的不足,我們針對形式化推理設計了一套全新的基於專家迭代框架的數據合成方法,該流程利用集成了 Lean4 服務器的專家迭代框架,生成經過嚴格驗證的證明過程,從而系統性提升模型的形式化推理能力。這一創新方法系統性地增強了模型的形式化推理能力,提高了其在學術和工程應用中的可靠性。
性能領先,為高複雜度任務而生
LongCat-Flash-Thinking在多項權威評測中刷新紀錄,在各類推理任務中均展現出持續領先的性能:
- 通用推理能力:LongCat-Flash-Thinking 具備卓越的通用推理能力,尤其在需要結構化邏輯的任務中表現突出。其在 ARC-AGI 基準測試中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等頂尖閉源模型。
- 數學能力:LongCat-Flash-Thinking 在數學推理方面展現出強大實力,躋身當前頂尖模型行列。在更具挑戰性的基準測試中優勢更加明顯——在 HMMT 和 AIME 相關基準上取得突破性成績,超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等領先模型水平相當。這些結果印證了其解決複雜、多步驟問題的領先能力。
- 代碼能力:在編程領域,LongCat-Flash-Thinking 展現出開源模型最先進的性能(SOTA)與綜合實力。在 LiveCodeBench 上以 79.4 分顯著超越參與評估的開源模型,並與頂級閉源模型 GPT-5 表現相當,證明其解決高難度編程競賽問題的卓越能力。在 OJBench 基準測試中也以 40.7 的得分保持極強競爭力,並接近領先模型Gemini2.5-Pro的水平。
- 智能體能力:LongCat-Flash-Thinking 在複雜的、工具增強型推理(Tool-augmented Reasoning)方面表現突出,在智能體工具調用(Agentic Tool Use)上展現出強勁能力。其在 τ2-Bench 上以 74.0分 刷新開源SOTA成績,並在包括 SWE-Bench、BFCL V3 和 VitaBench 等基準測試中展現出超強競爭力。
- ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基準中的 pass@1 獲得67.6的分數,大幅領先所有其他參與評估的模型,在 pass@8 和 pass@32 中同樣保持了領先優勢,凸顯其在生成結構化證明和形式化數學推理方面的絕對優勢。
開源開放,體驗全新版本
前往https://longcat.ai/,立即體驗 LongCat-Flash-Thinking 的深度思考功能:
開源平台地址:
- Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
- Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking
| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。
| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。