近日,美團推出了音頻驅動的多人對話視頻生成框架MultiTalk,並在GitHub上開源,首創L-RoPE綁定技術,通過標籤旋轉位置編碼精準解決多音頻流與人物錯位難題。該框架創新性地採用局部參數訓練+多任務學習策略,在保留複雜動作指令跟隨能力的同時,實現自適應動態人物定位。只需輸入多人音頻流、參考圖像和文本提示,即可生成口型精準同步、肢體自然的交互視頻,可支持影視製作、直播電商等場景的工具升級。
今年 8 月,美團開源的 InfiniteTalk 項目憑藉無限長度生成能力與精準的唇形、頭部、表情及姿態同步表現,迅速成為語音驅動虛擬人領域的主流工具,吸引全球數萬名開發者的使用。10月底,LongCat 團隊開源了LongCat-Video視頻生成模型,尤其在長視頻生成領域具備顯著優勢。 在 InfiniteTalk 和 LongCat-Video 基座的良好基礎上,LongCat 團隊針對實
前言--為什麼要寫AB實驗白皮書? 增長與優化是企業永恆的主題。面對未知的策略價值,數據驅動的AB實驗已經成為互聯網企業在策略驗證、產品迭代、算法優化、風險控制等方向必備的工具。越來越多的崗位,如數據科學家、算法工程師、產品經理以及運營人員等,要求候選人瞭解AB實驗相關知識。然而,許多從業者由於缺乏有效的學習渠道,對AB實驗的理解仍停留在初級階段,甚至存在一些誤解。我們希望通過系統性地分享和交流A
語音大語言模型(Speech LLM)想落地,繞不開一個死結:既要快速理解語音裏的語義,又要説出自然的音色,還得實時響應。比如智能音箱 “聽不懂” 語音,車載助手 “説” 得像機器人,實時翻譯延遲卡半秒 ——深究根源,全在 “語音 Token 化”:作為拆分語音為 Speech LLM “離散單元” 的關鍵步驟,傳統方案始終沒平衡好 —— 要麼缺語義、要麼丟聲學、要麼延遲高,剛好卡了 Speech
美團數據庫團隊推出了數據庫容量評估系統,旨在解決數據庫容量評估與變更風險防控等領域難題。本文介紹了系統架構和主要功能:系統使用線上流量在沙盒環境回放驗證變更安全,結合倍速回放技術探測集羣性能瓶頸,構建容量運營體系實現集羣容量觀測與治理閉環。系統具備數據操作安全、結果真實可靠、靈活高效賦能等特點,有效提升數據庫穩定性與資源利用率。 01 項目背景 數據庫作為業務系統的核心基石,其重要性不言而喻。隨着
本文系《可信實驗白皮書》系列的第三篇文章,第一篇文章我們介紹了為什麼要寫AB實驗白皮書,第二篇文章講解了AB實驗的理論原理及其背後的統計學基礎。本篇我們將重點介紹隨機對照實驗相關的一些基礎知識,以及提高實驗功效的一些常見方法。 備註:本篇排版為圖文混合排版,如果想獲得更好的閲讀體驗,建議訪問「美團技術團隊」知乎官方賬號《可信實驗白皮書系列03:隨機對照實驗》。 在美團到家業務場景中,經常會碰到隨機
美團信息安全技術團隊核心服務升級JDK 17後,性能與穩定性大幅提升,機器成本降低了10%。高版本JDK與ZGC技術令人驚豔,且Java AI SDK最低支持JDK 17。本文總結了JDK 17的主要特性,然後重點分享了JDK 17+ZGC在安全領域的一些實踐,希望能對大家有所幫助或啓發。 從一句調侃的話 “你發任你發,我用Java 8!” 可以看出,在開發新項目時,Java 8依然是大家的首選。
由美團 LongCat 團隊研發的 VitaBench(Versatile Interactive Tasks Benchmark)正式發佈,這是當前高度貼近真實生活場景所面臨複雜問題的大模型智能體評測基準。 VitaBench 以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體,構建了包含 66 個工具的交互式評測環境,並進行了跨場景的綜合任務設計,例如要求 agent 在一個旅行規劃
9 月 1 日,美團正式發佈並開源 LongCat-Flash-Chat,它採用了創新性混合專家模型(Mixture-of-Experts, MoE)架構,實現了計算效率與性能的雙重優化。 SGLang 團隊是業界專注於大模型推理系統優化的技術團隊,提供並維護大模型推理的開源框架 SGLang。近期,美團 M17 團隊與 SGLang 團隊一起合作,共同實現了 LongCat-Flash 模型在
今天,我們正式發佈 LongCat-Flash-Chat,並同步開源。LongCat-Flash 採用創新性混合專家模型(Mixture-of-Experts, MoE)架構,總參數 560 B,激活參數 18.6B~31.3B(平均 27B),實現了計算效率與性能的雙重優化。 根據多項基準測試綜合評估,作為一款非思考型基礎模型,LongCat-Flash-Chat 在僅激活少量參數的前提下,性能
本篇為《可信實驗白皮書》系列的最後一篇內容,主要分享了AB實驗分析方法庫在美團的實踐。同時,我們也為大家準備了一份系列全集的PDF文檔,希望能夠幫助到更多從事AB實驗工作的同學們。 獲取方式:關注美團技術團隊微信公眾號,在對話框回覆「可信實驗白皮書」即可獲取下載鏈接。 為了幫助任何用户輕鬆擺脱A/B測試中的各種挑戰,讓沒有複雜實驗背景和專家知識的人也能零門檻自主進行可信、高效的實驗。同時實
| 官網鏈接: https://uav-challenge.meituan.com/#links | 報名鏈接: https://wenjuan.meituan.com/survey/5487675 | 瞭解更多報名信息:相約IROS 2025現場!美團第三屆低空經濟智能飛行管理挑戰賽報名開始 IEEE/RSJ 智能機器人與系統國際會議(IROS)自 1988 年創辦以來,已成為全球機器人與智能
多模態人工智能正從單一感知能力邁向視覺、音頻與文本的統一融合,即全模態大模型(Omni-models)時代。然而,相應的評測體系卻相對滯後。現有的評測工具不僅稀缺、各自為戰,且幾乎完全以英文為中心,缺乏對中文場景的有效支持。此外,一些現存的數據集在設計上存在侷限性,例如部分問題的解答路徑並非嚴格依賴於多模態信息的融合,這為科學評估模型真實的跨模態能力帶來了一定的複雜性。 針對這些痛點,美團Lon