在本地生活服務領域,大模型技術落地正遭遇 “三重困境”:通用能力與領域需求難以適配,複雜場景下服務可靠性與個性化無法兼顧,高昂的數據成本與漫長的訓練週期進一步增加了開發難度。更關鍵的是,行業內缺乏可複用的業務適配框架與真實場景優化方案,導致技術落地效率較低。
如何打破僵局,實現 “體驗與效率” 的極致平衡?成為了行業共同面臨的難題。
基於此,結合美團自身在智能客服、多業務場景落地的實戰經驗,LongCat 團隊正式發佈——「WOWService 大模型交互系統技術報告」,深度拆解了 「數據與知識雙驅動」「自我優化訓練」「四階段訓練流水線」「多 Agent 協同」 四大核心技術框架,希望對行業發展提供參考與啓發。
▶ 技術報告:https://arxiv.org/pdf/2510.13291
01 概述
WOWService 系統融合多智能體協同、強化學習、領域知識增強等前沿技術,顯著提升了推理能力和業務場景的專業度。通過人機協同標註、模型自我批判強化及知識重寫,WOWService 在複雜指令處理和多任務場景下表現出更強的靈活性與深度。僅需 10%的小模型標註數據即可達到傳統方案相當的效果,有效降低了訓練成本和週期。
在實際業務應用方面,WOWService 已經主要落地在美團智能客服系統,並廣泛覆蓋美團內部的數十個業務場景,構建了高質量海量多輪對話數據,並完善了數據構建體系。系統通過持續優化和創新,不僅顯著提升了用户滿意度和業務運營效率,還在 11 項關鍵指標上全面超越了 Base 模型,充分展現了其在實際業務場景中的卓越優勢。WOWService 的落地應用有效助力美團實現智能化服務升級,推動了企業在多元業務場景下的持續創新與高效運營。
02 WOWService 框架
WOWService 智能交互系統通過數據與知識雙驅動機制,自我優化訓練機制、四階段多層次訓練流程、多 Agent 協同機制和人機協同評估體系,深度融合業務知識與真實交互數據,實現模型自我進化和高質量服務落地,有效提升知識遵循、業務合規性和用户體驗。
數據與知識雙驅動鑄就業務場景全域進化引擎
WOWService 通過“數據驅動與知識驅動相結合”的混合策略,將結構化業務知識(如規則庫、流程規範等)與大規模真實交互數據深度融合,優化知識與數據集的比例,從而在模型訓練過程中強化對業務規則和知識點的遵循能力。系統在混合驅動流程中應用強化學習等技術,進一步提升模型對基於知識規則的依從性,使智能交互系統不僅能夠在常規場景下準確響應,還能在複雜、多變的業務環境中保持合規性和高服務質量。
自我優化訓練造就智能交互自我進化熔爐
自我優化訓練(SRT)機制通過自動篩選線上服務日誌中的高質量服務案例,選取優秀表現作為正樣本補充訓練集,從而提升模型在真實業務場景下的服務能力。對於實際業務中表現不佳的負樣本,SRT 能夠自動進行歸因分析,並對原始對話進行重寫,生成偏好對比數據,用於訓練模型識別並規避低質量輸出,推動模型持續進化。依託線上服務日誌體系,SRT 實現對對話數據的自動採集、篩選和評估,構建自我進化的數據閉環,通過不斷迭代優化訓練集,持續提升智能交互模型的服務能力和用户體驗。
四階段訓練驅動交互場景系統化升級
為持續提升智能交互系統在複雜、多變業務場景下的適應能力與服務質量,WOWService 在高質量數據與知識基礎上,構建了涵蓋持續預訓練(CPT)、有監督微調(SFT)、直接偏好優化(DPO)和強化學習(RL)的四階段多層次訓練流水線。各階段協同配合,首先通過持續預訓練夯實模型的通用與領域能力,隨後以有監督微調高效適配具體業務風格,繼而利用直接偏好優化強化模型對用户偏好和個性化需求的響應,最終藉助強化學習進一步提升模型在複雜場景下的推理能力和業務表現。該多層次訓練體系實現了模型能力的持續進化與閉環優化,確保智能交互系統在實際應用中具備強大的業務適配性和持續迭代能力。
在持續預訓練階段,通過引入大規模用户交互數據,系統顯著提升了大語言模型在智能交互領域的專業能力,併兼顧模型的通用性。此階段重點解決了通用能力退化及領域數據質量不高的問題,採用自適應數據混合優化和高效數據處理流程,實現領域特性與通用能力的最佳平衡。
監督微調階段則聚焦於通過高質量、輕量級數據,將基礎模型與領域知識及智能交互風格高效對齊。融合數據驅動與知識驅動方法,顯著提升了模型在複雜業務場景下的響應能力與合規性。
在偏好學習階段,通過引入人工反饋和直接偏好優化技術,系統對大語言模型的輸出進行優化,使其更貼近人類偏好和真實業務需求。
強化學習階段通過“數據+知識”混合驅動、精細化獎勵機制和多維度對話評估,有效提升了模型在複雜業務場景下的知識遵循、對話質量和人性化表達能力。
多 Agent 協同機制塑造場景穿梭智能協同工廠
為解決單一大模型在複雜多變業務場景下難以全面滿足多樣化需求的問題,WOWService 引入了多 Agent 協同機制,通過主智能體與多個專用子智能體的分工合作,顯著提升了系統的業務適應性、服務合規性和用户體驗。
多 Agent 架構採用層次化設計,主智能體負責全局對話控制與決策,根據實時上下文動態調用各類專用子智能體(如外呼、主動協作、多模態理解等),並將其輸出整合進最終響應。這一“Agents-as-Tools”範式兼顧了靈活性與穩定性:主智能體持續與用户保持連貫交互,子智能體則作為可調用工具按需執行特定任務,避免了傳統流程交接導致的割裂和開發負擔。
此外,系統融合了“Handoff”模式,允許在必要時將任務及上下文一鍵轉交給其他智能體,實現高可靠性和透明性。主智能體根據實時信號和對話語境靈活採納子智能體輸出,確保關鍵信號只在合適時機被採納與執行,有效提升了系統的交互自然性和服務質量。以主動協作 Agent 為例,其智能交互系統能夠通過主動意圖挖掘與多場景適配,智能識別和確認用户需求,實現自動化場景切換,從而顯著提升對話效率和整體用户體驗。總體來看,多 Agent 協同機制通過主-子智能體的分工、動態調用與信息整合,構建了高效、靈活且可擴展的智能交互服務體系,為複雜業務場景下的智能服務落地提供了堅實支撐。
03 實驗結果
在實際業務場景的評估中,WOWService 框架在 11 項關鍵指標上全面超越了基礎模型(Base Model),展現出卓越的業務能力和用户體驗提升。具體來看,WOWService 在重複率(RR)、方案有效率(SER)、排隊率(QR)、滿分率(FSR)、平均 F1 分數(AVG_F1)、召回頻率(RF)、方案准確率(SR_Acc)、可用性率(UR)以及領域準確率(DS_Acc)等指標上均取得了明顯優勢,在兩個用户滿意度指標 USM1、USM2 上也獲得了大幅度改善。無論是自動化服務能力、業務閉環效率,還是多場景適配和智能推理水平,WOWService 都實現了全方位的突破,為本地生活服務的智能交互系統規模化落地和持續優化提供了堅實保障。
04 總結和展望
「WOWService」在本地生活領域將數據與知識雙驅動、自我優化訓練(SRT)、多 Agent 協同等技術轉化為有效方案,打通了技術研發到業務價值的轉化通路。它以“數據 + 知識”破解領域適配難題,SRT 機制用業務日誌構建進化閉環,將標註成本壓至傳統方案 10%,四階段訓練流水線與多 Agent 協同形成高效技術範式。
展望未來,WOWService 框架不僅將持續增強技術能力,還將拓展應用邊界,深化與用户日常生活的融合,通過智能體強化學習賦能工具使用,推進多智能體協作與多模態融合。最終,我們將打造真正個性化、以用户為中心的助手,推動技術與用户體驗的深度融合。
閲讀更多
| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。
| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。