基於 AI 的質量風險管控

新聞
HongKong
0
10:56 AM · Dec 25 ,2025

導讀

線上問題覆盤發現質量保障存在測試召回、有效性及排查止損時效性不足等痛點,根源在於保障對象多樣演進、線上問題處置複雜。為此我們構建質量風險管控系統,本文分別從風險管理系統的構建思想&實踐、風險感知系統的AI效果提升、風險控制系統的智能化建設等維度展開介紹,整體風險管控系統在構建過程效果、使用效果和質量結果等層面均取得較好效果。未來,AI將更深度參與質量風險管控過程,與人工協同構建更智能化的風險管控體系。

01 背景

在線上問題的覆盤中,我們總結出質量保障的三大痛點

(1)問題測試召回/感知能力的完備性不足:測試能力缺失導致問題漏檢、監控報警缺失導致問題發現滯後;

(2)問題測試召回/感知能力的有效性不足:測試工具不穩定導致測試結果失真、報警配置不合理導致誤報/漏報;

(3)問題排查與止損的時效性不足:線上問題定位能力缺失、定位止損慢、止損鏈路長,導致影響範圍擴大。

究其根本,源於以下挑戰:

(1)質量保障對象多樣、海量且持續演進:我們面對數以萬計至百萬級的質量保障對象(如服務模塊、詞表、業務對象等),每類對象對應不同的質量風險與保障策略。同時,這些對象本身還在不斷變化,要求質量保障方案具備動態適應能力——即實現對質量保障對象的完整、動態、高效識別與控制,確保在合適的階段選用最優的質量保障策略組合,以召回潛在風險。

(2)線上問題處置複雜、動態且高度關聯:線上系統面臨大量動態風險(如變更、數據波動、流量與資源變動等),這些因素持續衝擊系統穩定性。因此,我們亟需構建不依賴人、完備且高效的問題感知機制,並打造體系化、智能化的定位與止損能力,從而快速分析線索、實施干預,降低線上問題帶來的損失。

為應對上述挑戰,我們構建了質量風險管控系統(RMCS),該系統由三部分組成:風險管理系統(RMS-Risk Manage System)-前置消除風險、風險感知系統(ROS-Risk Observe System)-中期發現問題、風險控制系統(RCS-Risk Control System)-後置控制損失。

02 AI的質量風險管控方案

經過多年發展,伴隨着AI的發展強大,質量風險管控經過起步階段、發展階段的建設積累,已經發展到關鍵的轉型階段:基於AI的質量風險管控階段,我們普遍並深入的使用AI能力來解決質量風險管理全流程的問題,提升質量管控的效果和ROI。

圖片

△ 基於AI的質量風險管控整體架構

領域知識:把豐富的知識從各類入口、平台、配置以及人腦轉移到標準的軟件知識圖譜中,以結構化知識和非結構化規範知識進行組織,按需轉化為實體和關係,從而構建RMCS的豐富、標準、開放的知識圖譜生態,實現海量信息的標準化、共享化存儲。

RMCS核心能力

  • RMS Agent (AI風險管理):以 AI 為核心,打造具備 “感知 - 決策 - 執行 - 反思” 能力的智能質量風險管理系統,實現 “應攔盡攔”。RMS以開放策略生態思路,靈活管理 “對象質量能力、質量能力風險處置策略”,實現對不同刻畫對象能力現狀的刻畫,驅動質量能力提升,最終通過風險管理應用平台,實現數據、策略、刻畫、閉環等環節的統一產品管理。

  • ROS  Agent(AI報警管理):依託領域知識,打造風險實時觀測與降噪能力,實現 “應報盡報”。ROS涵蓋知識建設、監控創建、維護、評估、降噪及報警跟進等多個環節,覆蓋風險管理(如前置監控完備性建設)與控制(如報警有效性、感知後跟進處置)兩個階段,是問題發現後的主要感知手段。

  • RCS  Agent(AI值班人):融合領域模型與領域知識,打造端到端 AI 值班人,具備自主 / 協同式的智能定位與處置能力,實現 “應快儘快”。RCS圍繞問題發生到止損全環節,構建報警分類導診、排查定位、止損等多個環節的智能化控制能力,實現對問題整體損失預期控制,託管全流程風險控制過程。

03 基於AI的質量風險管控核心能力介紹

3.1 RMS Agent (AI做風險管理)

傳統質量建設過程的核心痛點包括質量能力缺失、質量能力退化等反覆出現的問題,面對龐大且持續變化的質量主題和持續發展的質量保障能力,需要構建不依賴於人刻畫和前置風險識別,風險管理系統RMS就是為了解決這種前置風險而產生的, RMS以知識圖譜為基礎,對質量保障『主體』上全生命週期『質量保障能力』進行持續的合理性風險評估、分發和處理流程管理,牽引『主體』的『質量保障能力』持續發揮預期價值,達到將風險約束在適宜位置/階段的目的,最終實現3個根本性轉變:

  • 從“人治”到“數治”: 將風險管控從依賴專家個人經驗和重複勞動的模式,轉變為基於全域數據和AI模型進行系統性、自動化治理的模式。

  • 從“孤立”到“協同”: 打破各業務線、各質量階段之間的信息壁壘,通過統一的風險語言和協作流程,實現跨域風險的聯動防控。

  • 從“被動響應”到“主動預防”: 從事後補救的“救火隊”模式,轉向事中干預、事前預測的“預警機”模式,將風險儘可能約束在萌芽或早期階段。

RMS核心關注的四大核心痛點和解決思路:

(1)“經驗壁壘”與“人力瓶頸”問題: 風險識別、評估、決策高度依賴少數專家的個人經驗,難以規模化、標準化和傳承,RMS 將專家經驗沉澱為可計算、可複用的知識圖譜和AI策略模型,讓系統具備“專家級”的風險認知和判斷能力。

(2)“信息孤島”與“認知侷限”問題:業務系統、質量數據、保障能力等信息分散在不同部門,缺乏全局視角,RMS 通過構建覆蓋“主體-對象-能力”的完備知識圖譜,打通數據孤島,形成統一的、相互關聯的風險全景視圖。。

(3)“響應滯後”與“漏反覆”問題: 傳統人工巡檢和評審方式,風險發現不及時,處理週期長且可能陷入“發現問題-修復-再次發生”的惡性循環,RMS實現7x24小時的自動化風險掃描與監測,並通過策略閉環確保風險被有效分發和處理,防止復發。

(4)“成本高昂”與“靈活性不足”問題: 為每個業務線定製化搭建風控體系成本高、週期長,業務變化時,風控策略難以快速調整,無法適應敏捷開發和快速迭代的需求,RMS 通過中台化、組件化(拼裝、插拔式)的架構,提供通用能力的同時,允許業務方低成本、高效率地自定義風控流程和策略,實現“開箱即用”與“靈活定製”的平衡。

RMS旨在從模式上成本上效果上重塑質量風險管理過程,****打破業務間壁壘,最大化降低業務質量經營成本。****整體方案依託軟件知識圖譜,以一站式質量經營為導向,構建包括實體對象管理、質量能力管理、風險策略管理、風險觀測、風險分發處置等通用能力。標準能力支持業務自主拼裝、插拔式使用,實現風險從認知到閉環的全流程管理。支持各種質量角色的參與,協同以達到持續提升質量經營水平的目的。

下面是RMS提供的部分核心能力展示,目前RMS接入實體106萬,覆蓋實體類型115類,建設能力項394個,累計發現風險16萬+,並完成了91.46%的風險閉環,直接支撐業務風險前置挖掘召回和閉環。

基於多實體關係的大事件運營

風險智能閉環工作台

3.2 ROS  Agent(AI做報警管理)

監控報警建設核心要解決報警完備性、有效性兩個問題,即一旦異常發生時,需覆蓋全位置、全指標異常並有效感知,同時對異常引發的多維、重複、關聯報警進行降噪,減少報警信號的流轉幹擾。

為此,ROS重點構建了報警自主生成&運維報警智能降噪能力來解決報警完備性和有效性問題。本文從通用邏輯闡述 AI 監控管理方案。

圖片

為達到完備和有效的目標,需重點解決以下四大問題:

(1)如何做到完備的覆蓋:構建完備的系統與業務知識,抽象所有監控對象並構建不同監控對象關係,結合監控基礎知識與大模型,生成完善的監控覆蓋方案,其中需要重點關注業務監控基礎知識差異,同時使用影響範圍、對象分層等作為輸入進行方案構建。

(2)如何做到監控項智能生成:依據監控對象、關係、基礎知識、數據 / 業務特徵及經驗,生成含監控對象、策略、關聯參數、通知方式等的多維度複雜監控項參數,這裏結合時序模型、大模型來綜合判斷,最終結合監控平台能力完成監控項的生成;監控生成分為完全自主生成(適用於場景明確、準確度高的場景)與協同式生成(需人工確認,用於初始階段或準確度不足時),兩種方式適合於不同成熟度的場景使用。

(3)如何做到異常智能識別:通過規則、時序模型、大模型、動態閾值等機制,判斷數據或用例結果是否為問題,不同的監控平台、監控對象、數據特徵、業務特徵適合不同類型的異常檢測策略。

(4)如何進行智能降噪:分析單個報警 、關聯報警、多個報警的異常特徵、關係及盯盤情況來綜合判斷是否需要進行報警通知,並結合風險程度、影響範圍、時效性等解決無效打擾、報警淹沒等問題,平衡質效。

下面是典型的業務&監控平台提供的能力示例如下,通過上述關鍵問題的解決,結合底層完備/準確的知識構建和場景化的應用產品,監控召回率保持90%+,報警生成比例78%,部分業務監控降噪比例已達到60%。

報警生成示例

切流導致的報警降噪(綠色點不通知)示例

3.3 RCS  Agent(AI值班人)

風險控制系統主要解決報警後跟進及時性、排查準確性與效率問題,通過快速找到有效止損線索並止損縮小影響,將問題損失控制在最小範圍,會面臨以下幾個關鍵問題:

(1)匹配最優跟進人 / 方案:如何結合問題影響面、跟進代價與時效性,明確 AI 或真人跟進的成本與效果。

(2)提供排查線索與止損預案:如何依據業務經驗、變更信息、系統知識、歷史故障等,匹配最契合排查鏈路/工具找到正確的線索並從預案庫篩選最優止損方案,實現快速止損。

(3)解決跟進過程信息與人員混亂:針對多角色、多團隊參與的線上處置場景,尤其長鏈路業務信息差問題,需要構建端到端事件管理機制,確保及時找對負責人、同步信息,減少干擾與維護成本。

為了解決上述問題,構建了一套統一的RCS建設方案,可實現基於AI的全方位風險控制能力。

圖片

方案中有幾個關鍵部分,展開介紹如下:

(1)問題導診:報警後快速明確風險影響面、跟進方(AI or 真人),提供智能排查結論,按業務特點構建導診策略(如影響面、風險對象、業務類別等),實現差異化問題處置通路。

(2)端到端事件管理:搭建事件管理產品,覆蓋事件感知、建羣、排查、止損、總結、跟蹤全生命週期,提供流程管理、信息互通等核心能力,同時完成事件信息的統一中心化存儲,實現 MEG 線上事件標準化管理。

(3)AI值班人自主處置(常見於慢損問題):對影響小、暫無需真人介入的問題,AI 通過定位工具調度、對話分析、人員地圖等能力,完成初步分析、變更確認、標註等工作,確認是線上問題後再轉真人跟進。自主處置AI值班人的目標是自主完成問題處置,所以需要建設完善的定位工具調度、單對單對話、自然語言分析、人員地圖能力,並能夠實現擬人化的信息確認和自主分析。

(4)AI值班人引導處置(常見於快損問題):快損問題需真人與 AI 協同,AI 以助手身份提供線索推薦、工具推薦、止損操作推薦、事件盯盤等支持,且可動態調整策略(如根據損失預估切換止損方式),觸達正確人員快速判斷,快損事件的關鍵目標是快速止損,所以無論是觸達效率、有損止損動作選擇權衡等均需要以綜合損失最小快速止損為目標。

(5)高危事件管控中心:針對業務與系統關聯複雜的情況,構建全局管控中心與 MEG 高危事件 AI 值班人,與各業務 AI 值班人協同,實現事件信息、工具、線索互通,避免因信息差延誤止損。

通過持續的能力建設和數字化構建,線上問題的智能定位覆蓋率和準確率穩步增長,同時為了解決問題損失(等級)和MTTR的耦合關係,構建了基於損失速度分桶的損失控制達標率指標,該達標率同樣持續提升至93%。AI值班人開始持續在風險控制過程中發揮作用,AI值班人協助率達到96%,端到端協率完成協助率達到40%。

04 總結&展望

隨着RMCS能力的建設,質量結果得到了非常有效的控制(如下圖)。

圖片

(1)從線上問題數量上看,線上問題總數逐年降低,25年對比22年降低比例超過53%,説明我們具備了將問題前置攔截通過風險呼喚前置解決的能力。

(2)從線上問題等級上看,嚴重問題數量也在持續降低,説明我們具備了快速問題感知和控制的能力,將高損問題轉化為低損問題。

展望

目前質量風險管控已經發展了AI轉型的重要時期,已經從使用AI解決工具問題變化為使用面向AI構建知識、產品,AI從輔助人慢慢的開始在更多場景可以替代人,因人的投入限制質量保障工作的限制會逐步被突破,質量風險管控後續也可能會變成人和AI更深度協同分析的局面,AI發揮自我學習、24h oncall、智能化的特長完成絕大部份的風險管控,正式員工發揮知識構建、訓練AI並構建符合AI的管控產品,最終協同構建更智能化的風險管控目標。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.