時光奔流,我們即將與 2025 年揮手作別。感謝這一路上,每一位夥伴的並肩前行與堅定支持。
今年,美團技術團隊在持續深耕中涌現出不少值得分享的實踐與開源產品&服務。我們從中精選了18篇具有代表性的技術文章,內容涵蓋大模型開源、研發技能、產品服務三大方向。值得一提的是,美團 LongCat 團隊今年在大模型開源領域成果顯著,陸續發佈了涵蓋基座模型、圖像、視頻、語音等多個方向的開源產品與工具,期望能夠持續推動AI技術分享與生態共建。
希望這些開源的大模型產品、服務及凝結一線技術實戰經驗的內容,能為大家帶來啓發和幫助,陪伴同學們在技術前行的道路上紮實成長。願我們在新年裏,繼續向下紮根、向上生長,迎着光,奔赴更高、更遠的山海。2026,期待繼續同行!
大模型開源
01 | 美團正式發佈並開源 LongCat-Flash-Chat,動態計算開啓高效 AI 時代
9月初,美團正式發佈並開源 LongCat-Flash-Chat。LongCat-Flash 採用創新性混合專家模型(Mixture-of-Experts, MoE)架構,總參數 560 B,激活參數 18.6B~31.3B(平均 27B),實現了計算效率與性能的雙重優化。
根據多項基準測試綜合評估,作為一款非思考型基礎模型,LongCat-Flash-Chat 在僅激活少量參數的前提下,性能比肩當下領先的主流模型,尤其在智能體任務中具備突出優勢。並且,因為面向推理效率的設計和創新,LongCat-Flash-Chat 具有明顯更快的推理速度,更適合於耗時較長的複雜智能體應用。
目前,已在 Github、Hugging Face 平台同步開源,同時你也可以訪問官網 https://longcat.ai/,與 LongCat-Flash-Chat 開啓對話。(閲讀全文)
開源地址 :Hugging Face | Github
02 | LongCat-Flash-Thinking 正式發佈,更強、更專業,保持極速!
9月,美團 LongCat 團隊正式發佈全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 極致速度的同時,全新發布的 LongCat-Flash-Thinking 更強大、更專業。綜合評估顯示,LongCat-Flash-Thinking 在邏輯、數學、代碼、智能體等多個領域的推理任務中,達到了全球開源模型的先進水平。
同時,LongCat-Flash-Thinking 不僅增強了智能體自主調用工具的能力,還擴展了形式化定理證明能力,成為國內首個同時具備「深度思考+工具調用」與「非形式化+形式化」推理能力相結合的大語言模型。我們發現,尤其在超高複雜度的任務(如數學、代碼、智能體任務)處理上, LongCat-Flash-Thinking 具備更顯著的優勢。目前, 該模型已在HuggingFace、Github全面開源。(閲讀全文)
開源地址 :Hugging Face | Github
03 | LongCat-Video 視頻生成模型正式發佈,探索世界模型的第一步
要讓人工智能真正理解、預測甚至重構真實世界,"世界模型"(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI"看見"世界運行本質的能力。而視頻生成模型有望成為構建世界模型的關鍵路徑------通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。
基於這一關鍵目標,10月,美團 LongCat 團隊正式發佈 LongCat-Video 視頻生成模型 ------ 不僅以統一模型在文生、圖生視頻基礎任務上達到開源先進水平,更依託原生視頻續寫任務預訓練,實現分鐘級長視頻連貫生成,從根源上保障跨幀時序一致性與物理運動合理性,尤其在長視頻生成領域具備顯著優勢。
作為一款視頻生成模型,LongCat-Video 憑藉其精準重構真實世界運行狀態的能力,正在成為美團探索世界模型的第一步,也是關鍵的一步。同時,這也為後續支撐更多自動駕駛、具身智能等深度交互業務場景,夯實了技術基礎。(閲讀全文)
開源地址 :GitHub | Hugging Face | Project Page
04 | LongCat-Flash-Omni 正式發佈並開源:開啓全模態實時交互時代
11月,LongCat-Flash-Omni 正式發佈並開源。LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架構設計為基礎( Shortcut-Connected MoE,含零計算專家),同時創新性集成了高效多模態感知模塊與語音重建模塊。即便在總參數 5600 億(激活參數 270 億)的龐大參數規模下,仍實現了低延遲的實時音視頻交互能力,為開發者的多模態應用場景提供了更高效的技術選擇。
綜合評估結果表明,LongCat-Flash-Omni 在全模態基準測試中達到開源先進水平,同時在文本、圖像、視頻理解及語音感知與生成等關鍵單模態任務中,均展現出極強的競爭力。LongCat-Flash-Omni 是業界首個實現 "全模態覆蓋、端到端架構、大參數量高效推理" 於一體的開源大語言模型,首次在開源範疇內實現了全模態能力對閉源模型的對標,並憑藉創新的架構設計與工程優化,讓大參數模型在多模態任務中也能實現毫秒級響應,解決了行業內推理延遲的痛點。模型已同步開源,歡迎體驗。(閲讀全文)
開源地址 :Hugging Face | Github
05 | 美團開源 LongCat-Audio-Codec,高效語音編解碼器助力實時交互落地
語音大語言模型(Speech LLM)想落地,繞不開一個死結:既要快速理解語音裏的語義,又要説出自然的音色,還得實時響應。比如智能音箱 "聽不懂" 語音,車載助手 "説" 得像機器人,實時翻譯延遲卡半秒。深究根源,全在 "語音 Token 化":作為拆分語音為 Speech LLM "離散單元" 的關鍵步驟,傳統方案始終沒平衡好 ------ 要麼缺語義、要麼丟聲學、要麼延遲高,剛好卡了 Speech LLM 落地的 "死結"。
針對 Speech LLM 落地中的音頻處理難題,11月,美團 LongCat 團隊正式開源專用語音編解碼方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)與 Token 還原器(DeTokenizer)工具鏈,其核心功能是將原始音頻信號映射為語義與聲學並行的 token 序列,實現高效離散化,再通過解碼模塊重構高質量音頻,為 Speech LLM 提供從信號輸入到輸出的全鏈路音頻處理支持。通過創新的架構設計與訓練策略,LongCat-Audio-Codec 在語義建模、聲學重建、流式合成三大維度實現突破。(閲讀全文)
開源地址 :Github | Hugging Face
06 | 美團發佈 LongCat-Image 圖像生成模型,編輯能力登頂開源SOTA
12月初,美團發佈 LongCat-Image 圖像生成模型。當前 AI 圖像生成技術需求旺盛,但行業陷入 "兩難困境":閉源大模型性能強勁但無法自行部署或二次定製開發,開源方案普遍存在輕量化與模型性能難以兼顧、面向商用專項能力不足的痛點,制約商業創作與技術普惠。
為此,美團 LongCat 團隊正式發佈並開源 LongCat-Image 模型,通過高性能模型架構設計、系統性的訓練策略和數據工程,以 6B 參數規模,成功在文生圖和圖像編輯的核心能力維度上逼近更大尺寸模型效果,為開發者社區與產業界提供了 "高性能、低門檻、全開放" 的全新選擇。(閲讀全文)
開源地址 :Hugging Face | GitHub
07 | 美團 LongCat-Video-Avatar 發佈,實現開源SOTA級擬真表現
今年 8 月,美團開源的 InfiniteTalk 項目憑藉無限長度生成能力與精準的唇形、頭部、表情及姿態同步表現,迅速成為語音驅動虛擬人領域的主流工具,吸引全球數十萬名開發者的使用。10月底,LongCat 團隊開源了 LongCat-Video 視頻生成模型,尤其在長視頻生成領域具備顯著優勢。
在 InfiniteTalk 和 LongCat-Video 基座的良好基礎上,LongCat 團隊針對實際場景中的核心痛點持續優化,12月正式發佈並開源 SOTA 級虛擬人視頻生成模型 ------ LongCat-Video-Avatar。
該模型基於 LongCat-Video 基座打造,延續 "一個模型支持多任務" 的核心設計,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及視頻續寫等核心功能,同時在底層架構上全面升級,實現動作擬真度、長視頻穩定性與身份一致性三大維度的顯著突破,為開發者提供更穩定、高效、實用的創作解決方案。(閲讀全文)
開源地址 :GitHub | Hugging Face | Project
研發技能
08 | MTGR:美團外賣生成式推薦Scaling Law落地實踐
美團外賣推薦算法團隊基於HSTU提出了MTGR框架以探索推薦系統中Scaling Law。MTGR對齊傳統模型特徵體系,並對多條序列利用Transformer架構進行統一建模。通過極致的性能優化,樣本前向推理FLOPs提升65倍,推理成本降低12%,訓練成本持平。MTGR離在線均取得近2年迭代最大收益,且於2025年4月底在外賣推薦場景全量。本文系相關工作的實踐與經驗總結,希望能給從事相關方向研究的同學帶來一些幫助。(閲讀全文)
09 | JDK高版本特性總結與ZGC實踐
美團信息安全技術團隊核心服務升級JDK 17後,性能與穩定性大幅提升,機器成本降低了10%。高版本JDK與ZGC技術令人驚豔,且Java AI SDK最低支持JDK 17。本文總結了JDK 17的主要特性,然後重點分享了JDK 17+ZGC在安全領域的一些實踐,希望能對大家有所幫助或啓發。(閲讀全文)
10 | 鴻蒙應用簽名實操及機制探究
華為鴻蒙單框架操作系統HarmonyOS NEXT已於2024年10月23日正式發佈Release版。HarmonyOSNEXT僅支持鴻蒙原生應用,不再兼容安卓。本文對鴻蒙公開資料進行了深入分析和解讀,梳理了鴻蒙單框架應用的簽名機制,拆解每一步的實操過程和背後的實現原理,並對源碼分析整理簽名的校驗機制。從中管中窺豹,探究鴻蒙系統的安全設計思路,給從事鴻蒙研發的同學提供一些借鑑。(閲讀全文)
11 | 預測技術在美團彈性伸縮場景的探索與應用
管理企業大規模服務的彈性伸縮場景中,往往會面臨着兩個挑戰:第一個挑戰是精準的負載預測,由於應用實例的啓動需要一定預熱時間,被動響應式伸縮會在一段時間內影響服務質量;第二個挑戰是高效的資源分配,即在保障服務質量的同時控制資源成本。為了解決這些挑戰,美團與中國人民大學信息學院柴雲鵬教授團隊展開了"預測技術在彈性伸縮場景的應用"科研合作,相關論文《PASS: Predictive Auto-Scaling System for Large-scale Enterprise Web Applications》在具有國際影響力的會議The Web Conference 2024(CCF-A類會議)上作為Research Full Paper發表。(閲讀全文)
12 | 從0到1建設美團數據庫容量評估系統
美團數據庫團隊推出了數據庫容量評估系統,旨在解決數據庫容量評估與變更風險防控等領域難題。本文介紹了系統架構和主要功能:系統使用線上流量在沙盒環境回放驗證變更安全,結合倍速回放技術探測集羣性能瓶頸,構建容量運營體系實現集羣容量觀測與治理閉環。系統具備數據操作安全、結果真實可靠、靈活高效賦能等特點,有效提升數據庫穩定性與資源利用率。(閲讀全文)
13 | AI Coding與單元測試的協同進化:從驗證到驅動
AI生成代碼質量難以把控!本文分享來自美團的技術實踐,三大策略破解AI編程痛點。單測快速驗證邏輯正確性,安全網保護存量代碼演進,TDD模式精準傳遞需求。告別「看起來沒問題」的錯覺,構建AI時代的代碼質量保障體系。(閲讀全文)
14 | LongCat-Flash:如何使用SGLang部署美團Agentic模型
SGLang 團隊是業界專注於大模型推理系統優化的技術團隊,提供並維護大模型推理的開源框架SGLang。近期,美團M17團隊與SGLang團隊一起合作,共同實現了LongCat-Flash模型在SGLang上的優化,併產出了一篇技術博客《LongCat-Flash: Deploying Meituan's Agentic Model with SGLang》,文章發表後,得到了很多技術同學的認可,因此我們將原文翻譯出來,並添加了一些背景知識,希望更多同學能夠從LongCat-Flash的系統優化中獲益。(閲讀全文)
15 | 可信實驗白皮書系列:從0到1的方法論與實踐指南
增長與優化是企業永恆的主題。面對未知的策略價值,數據驅動的AB實驗已經成為互聯網企業在策略驗證、產品迭代、算法優化、風險控制等方向必備的工具。越來越多的崗位,如數據科學家、算法工程師、產品經理以及運營人員等,要求候選人瞭解AB實驗相關知識。然而,許多從業者由於缺乏有效的學習渠道,對AB實驗的理解仍停留在初級階段,甚至存在一些誤解。我們希望通過系統性地分享和交流AB實驗的理論基礎、基本流程、核心要素及其應用優勢,能夠幫助更多相關人員深入瞭解實驗,提升實驗文化的普及度,最終輔助企業在更多領域做出精確數據驅動決策。
除了廣泛傳播實驗文化外,該白皮書在深度上也可給實驗研究人員,提供複雜業務制約下進行可信實驗設計與科學分析評估的參考經驗和啓發。從美團履約技術團隊、美團外賣業務的實踐來看,實驗者常常面臨多種複雜的實驗制約和難題,例如,在美團履約業務中,實驗往往需要應對小樣本、溢出效應(即實驗單元間互相干擾)以及避免引發公平性風險等多重約束,需設計科學複雜的實驗方案以克服相應挑戰。通過撰寫白皮書,我們系統性地總結和分享應對複雜實驗約束的研究經驗,進而能夠促進實驗技術的傳播與升級,推動實驗科學持續進步。
本白皮書以AB實驗為中心,涵蓋AB實驗概述與價值、實驗方法基礎原理與案例剖析以及配套SDK代碼分析等,內容豐富且易於理解和應用。適合從事AB實驗研究的數據科學家、系統開發人員,以及需要實驗驅動策略決策的業務和產研團隊,同時也適合對數據驅動增長和數據科學等領域感興趣的讀者。(閲讀全文)
| 獲取方式 :關注美團技術團隊微信公眾號,在對話框回覆「可信實驗白皮書」即可獲取PDF電子書下載鏈接。
產品服務
16 | 無需代碼!美團 NoCode 像聊天一樣輕鬆搭建你的專屬網站
這是一款由美團技術團隊打造的 AI 編程類產品------NoCode,可以像聊天一樣輕鬆搭建你的專屬網站、遊戲、各種小工具等等,當然還有更多的隱藏功能等你發現,文末我們還準備了2項互動獎勵,期待跟大家一起,開啓全新的 AI 編程之旅。(閲讀全文)
17 | 美團首款 AI IDE 產品 CatPaw 開啓公測
Meituan CatPaw (以下統一使用"CatPaw")是美團推出的 AI IDE,以 Agent & 人協作為核心,通過 Agent 智能驅動編程,輔以代碼補全、項目預覽調試等功能,結合美團自研的基於編程場景特訓的 LongCat 模型,並支持多種模型混合調用,讓編碼過程更專注,項目交付更高效!
CatPaw 早在 2023 年就在美團內部以編輯器插件形態正式上線,此次完成全新升級後進行公開測試。目前在美團內部研發滲透率超 95%,增量代碼 AI 生成率超 50%。(閲讀全文)
18 | 美團 LongCat 上線 AI 生圖!精準高效,AI 創作不設限
美團 LongCat 全新上線 AI 生圖功能,該功能基於LongCat系列模型「LongCat-Image」打造而成。不僅在文生圖任務中實現了"快、真、準" :出圖快速響應、達到攝影棚拍攝質感、中文渲染精準度高;更在圖像編輯任務上做到了精準便捷,無需複雜指令,可以用自然語言對圖像進行二次編輯。
無論是追求高效出圖的普通用户,還是需要精準落地創意的專業創作者,LongCat 都以 "輕量化模型 + 流暢體驗" ,讓 AI 生圖真正成為人人可用的創作工具。目前,AI 生圖功能已在LongCat APP和 https://longcat.ai/ 同步上線,輕鬆解鎖高效創作新方式。(閲讀全文)
| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。
| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明"內容轉載自美團技術團隊"。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。