動態

詳情 返回 返回

圓桌論壇精華實錄 | AI是重構運維邏輯的顛覆性革命?博睿數據與行業大咖親授“AI+可觀測性”的破局之道 - 動態 詳情

全文約6500字 閲讀時間約15分鐘。

當前,人工智能正處於高速發展階段,以前所未有的深度與廣度重塑商業規則,推動企業數字化轉型從規模化擴張邁入精細化深耕。面對這場洶涌而來的智能變革,運維領域正面臨一道核心命題:AI究竟是提升效率的輔助工具,還是重構運維邏輯的顛覆性革命?

國內金融、製造等關鍵行業已步入數字化深水區,卻普遍陷入運維複雜度激增、故障定位滯後、數據價值難以轉化等行業焦慮。如何讓AI技術真正落地運維場景?如何通過可觀測性打通全鏈路數據孤島?如何平衡技術創新與業務實用價值?這些痛點,正成為企業突破增長瓶頸的迫切訴求。

近日,在博睿數據“Bonree ONE 2025秋季版全球產品發佈會”的圓桌論壇環節,業界技術領袖齊聚一堂,圍繞以上行業痛點以及“AI + 可觀測的探索、實踐和展望”這一話題展開深度對話。圓桌論壇由博睿數據CTO程捷主持,特邀四位來自金融、製造等關鍵領域的技術領袖,共同探討了AI+可觀測性在實戰中的應用價值與未來圖景。

論壇嘉賓:

黃保慶:華為數字金融軍團運維負責人

王澤峯:深圳農商銀行運維大模型架構師

賀佔湘:豪鵬科技信息部運維負責人

權寧升:國投證券全鏈路可觀測負責人

下文為“AI + 可觀測的探索、實踐和展望”圓桌論壇精華實錄。

議題一:當前 AI+可觀測性面臨的挑戰

從監控到可觀測,數據與技術的跨越融合

程捷:在當前數字化浪潮中,系統複雜性呈指數級增長,傳統監控手段已力不從心。可觀測性讓我們能夠洞察系統內部的真實狀態,AI則賦予我們預測和自主行動的能力,兩者的結合正在重新定義運維的邊界和價值。今天我們將聚焦三個核心話題與大家共同探討:第一,當前AI+可觀測性面臨的挑戰;第二,AI+可觀測性的落地場景;第三,AI+可觀測性對運維組織文化、協作方式帶來的重大變革。當前,系統複雜性、故障定位、體驗保障是我們共同的挑戰,而解決這些問題的第一步,必然是獲取高質量數據並建立統一的可觀測體系。Bonree ONE在過去兩年持續完善可觀測統一全域數據模型,核心目標就是解決數據質量問題。想請教各位,在構建企業級可觀測性平台的過程中,遇到最大的挑戰是什麼?

黃保慶:我認為可觀測性領域主要面臨兩大挑戰。第一,從全域數據層面來看,日誌、鏈路、拓撲告警、指標等多維數據的融合,如何高效實現數據集成,是實際案例中遇到的一大挑戰。第二,以銀行為例,核心系統完成分佈式架構轉型後,運維對象和監控數據規模大幅增長。某股份制銀行每天產生約100TB日誌,如此龐大的數據量,對數據接入性能和處理效率提出了極高要求。

王澤峯:我們前期研究和調研發現,數據割裂是推進可觀測性建設的最大阻礙。告警信息分佈在各個系統中,很難將其有效串聯起來,這是我們實際面臨的核心問題。

賀佔湘:結合豪鵬科技的發展歷程,我們的監控體系構建和大部分企業類似,初期依賴手工腳本及Zabbix、Prometheus等工具。這些工具能告知某台機器CPU滿負荷或數據庫反應慢,但無法應對複雜故障。豪鵬科技是新能源鋰電池製造企業,與金融等行業存在差異,比如惠州工廠的自動化設備有複雜鏈路,會跨地域調用深圳工廠的資源。當產線出現業務停擺時,Zabbix顯示服務器資源正常,Prometheus提示數據庫無異常,問題可能出在網絡波動、微服務接口超時等方面,此前複雜故障的排查往往需要小時級別,引入博睿數據全鏈路可觀測後,能夠精準定位複雜鏈路調度中的問題接口,排查效率大幅提升,為運維工作帶來了質的飛躍。

權寧升:國投證券在數據分析初期整合了所有運維數據,但數據間的串聯難度極大。這並非技術問題,更多需要各開發部門配合,技術層面反而相對簡單,數據串聯卻耗費了大量時間。我認為,提前做好數據標準化及處理加工,對後續整體鏈路串聯至關重要。這一經驗也應用到了新一代架構建設中,提前設定好所有需要的ID,為項目推進奠定了良好基礎。

程捷:我今年接觸了很多券商客户,他們都想推進數據融合,但普遍存在顧慮:博睿數據能否幫助他們實現全量數據融合?正如您調研,國投證券是證券行業真正落地全鏈路可觀測的首家機構,具有開創性意義,對整個行業都有借鑑和鼓舞作用。想請教您,在眾多券商想做而不敢做的情況下,國投證券是如何規劃體系,打通從券商前台業務到後台核心交易的每一個環節?過程中是否存在一些外行難以想象的數據盲區?

權寧升:核心前提是我們已經搭建好了運維數據底座,在此基礎上自然要推進全鏈路建設。初期我們只是想找到一條完整通路,嘗試金融商店等場景後,最終在手機證券委託場景中實現了突破。數據串聯和標準化過程中,每一條數據都有其特性,會基於時間戳、業務邏輯架構生成,串聯時需要考慮當日唯一性、標準性、位數一致性等多個問題。這個過程中遇到了諸多挑戰,真正實現數據串聯後,確實令人振奮。很多人覺得 “把數據串起來就行”,但實際操作遠非如此簡單。核心問題不在技術,而在數據標準化和處理,這涉及Kafka、ES等各類組件的索引構建、存儲週期、調用方式等細節。數據孤島確實存在,但只要保持耐心和對數據嚴謹的態度,就能找到數據間的關聯。我們在處理APM數據調用時,面對80種數據類型,最終找到了能串聯所有數據的方式。因此,做好全鏈路可觀測,技術是基礎,更重要的是嚴謹態度和足夠耐心。

程捷:您的分享背後隱含兩個關鍵前提:一是國投證券的原有數據基礎打得非常紮實;二是國投證券的主動推進,讓廠商和合作夥伴的助力變得更高效。僅靠廠商的力量,很難完成這樣的項目,需要甲乙方默契配合、分工協作才能達到最佳效果。接下來想請教王總,今天的主題圍繞AI展開,您作為運維大模型架構師,從您的視角來看,當前的可觀測數據是否足夠餵養運維大模型?如果想讓AI在可觀測領域和運維領域更好發揮作用,現有可觀測數據需要進行哪些預處理或增強?

王澤峯:目前我們主要基於開源大模型,探索微調與預訓練的應用方式,相關實踐仍在推進中。開源大模型的現有能力已經很強,自主訓練的模型未必能達到同等效果,在微調及垂直領域賦能方面,我們可以讓模型更貼合自身需求,彌補垂直領域的知識盲點。我非常期待運維領域專有大模型的出現。

程捷:從各位專家的分享中,能看出大家對數據質量的重要性已形成明確共識。我認為高質量數據至少要滿足三個條件:結構化、標準化、語義化。只有達到這三點,才能讓AI大模型更好地理解數據語義,只有做好數據基礎工作,AI才能更便捷地調用和消費數據,真正發揮價值。AI話題已討論多年,眾多廠商和甲方都推出過相關解決方案,但至今仍缺乏成熟的商業產品落地。我認為核心問題在於方法論層面:過於關注上層場景,而忽視了底層基礎建設,這需要我們進行方法論的切換和改革。

議題二:AI+可觀測性的落地場景

AI的賦能時刻——從“被動”到“主動”

程捷:接下來我們進入第二個議題:AI在可觀測分析方面的落地場景。AI賦能可觀測與運維的場景十分豐富,AI應成為運維團隊的夥伴或數字員工,核心是思考人類與機器的協作模式。想請教各位專家,除了根因分析、告警異常檢測、告警收斂等常見場景,從實踐來看,AI在可觀測領域未來最令人興奮或期待的場景是什麼?它對業務的真實價值體現在哪裏?

黃保慶:從我們的實踐及服務金融行業客户的經驗來看,最具價值的場景是通過大模型實現全鏈路故障定界與根因分析。今天發佈的 Bonree ONE 2025秋季版的產品能力,讓我們看到了這類優質產品和能力的落地,我們期望通過這種能力,幫助銀行等金融客户實現5分鐘故障定級定位的運維目標,這是我們非常期待解決的價值場景。

王澤峯:大模型的出現,讓我多年前的一個設想有了實現的可能。當時做災備切換時,能否實現 “一句話切換”,出現問題後AI通過語音告知問題、詢問是否需要處理和授權。我理想中的最終狀態是,AI能支持聲紋識別,通過自然語言交互完成操作,成為真正的夥伴,與人類交互無差異。人類負責提出業務需求、監督決策,AI負責執行。當前AI在根因定位分析、語音判斷、聲紋識別等方面還有很大發展空間,運維領域的AI應用前景廣闊。

賀佔湘:結合我們當前的落地場景,不談未來,只説當下:AI+可觀測性基於歷史數據的異常檢測。此前普通告警依賴人為設置固定閾值,但生產線場景複雜多變,不同時間段可能生產不同客户的產品。即便當前運行狀態值在正常範圍,AI也能通過歷史數據預判趨勢,告知未來一週可能出現的偏離,為我們預留充足的預防時間。

權寧升:我更關注運維故障的提前發現。故障發生後再進行根因分析或解決,始終不夠理想。如果能在故障發生前實現預測,價值會更大。我們之前已做過相關嘗試,通過趨勢分析、調用鏈情況、日誌數據等,判斷故障可能出現的時間。比如面對大量行情涌入時,提前預測並及時擴縮容,保障業務穩定。

程捷:我非常認同權總的觀點,無論故障發現速度是1分鐘還是5秒鐘,故障已經發生並對業務造成了損失,只是損失大小不同。業內常説“1-5-10”原則,本質上仍是故障發生後的應對。因此,博睿數據在這一方法論前增加了一個“0”,即“0-1-5-10”,核心目標是讓80%的故障在發生前被識別、被處置。這也是我們接下來的發力重點。

回到話題,想請教黃總,華為自身業務及服務的客户場景都極為複雜,尤其是金融行業客户,場景更復雜、壓力更大。當前通用大模型存在幻覺這個關鍵問題 ,而運維是嚴肅且實時性要求極高的場景,運維故障處置的實時性要求極高,部分客户已不滿足“1-5-10”,而是追求“0.5-3-5”的更快響應。如果大模型的幻覺問題無法解決或有效避免,大模型驅動的故障預測與分析,離金融等高壓行業的大規模應用還有多遠?達到何種程度,金融機構的運維團隊才敢採信其結果並採取行動?

黃保慶:目前基於大模型構建運維場景,行業內都在進行探索和實踐。最基礎的場景是運維問答,用於沉澱案例和知識庫。但要解決故障發現、預測等核心問題,確實面臨諸多挑戰,幻覺就是常見問題——同一問題可能得到不同反饋,這是運維大模型在故障定位等場景中需要重點探索的方向。

從實踐來看,華為在計算、網絡、存儲等單領域的故障定界與分析,結合行業實踐經驗和專家經驗,已形成一定探索成果。這類場景的故障模型相對容易沉澱,成熟度較高,離大規模商用可能更近。但我們的目標是從應用或業務視角出發,解決從應用到雲、網絡的全鏈路故障定界與定位問題,這一領域目前難度較大,仍需行業共同探索。關於可信度,運維對準確性要求極高,目前沒有統一標準答案。但我們認為,根因分析結論的準確率至少要達到90%,甚至追求100%的準確性。只有達到這樣的技術要求,大模型驅動的運維應用大規模商用才未來可期。

程捷:我認為當前通用模型的獎勵函數需要修正,要做到“知之為知之,不知為不知”,避免在沒有數據支撐的情況下一本正經地錯誤回答,運維領域需要更嚴肅的大模型。

接下來想請教賀總,我們大多來自金融或IT行業,而您是製造業代表。豪鵬科技作為高科技製造業,運維對象包括物聯網設備、生產系統等。AI+可觀測性在保障生產連續性、提升產品品質方面,與其他行業相比有何不同?是否有獨特場景?

賀佔湘:目前我們的落地場景主要集中在IT系統,包括生產系統、資金系統、ERP決策系統等的業務連續性保障。這些系統一旦發生故障,生產將直接停擺,造成慘重損失。我們主要通過三個方面保障業務連續性:一是AI+可觀測性的容量預測,根據排程計劃預判服務器資源負載,提前做好擴容或預防;二是快速故障定位,通過全鏈路監控實現分鐘級排查;三是我們下一步正在探索的IT與OT融合,將電芯生產全鏈路涉及的IT系統數據,與車間生產線物聯網設備數據按時間線綁定,為每個電芯建立完整的數據履歷,最終實現數字孿生。通過數字孿生,可追溯電芯生產全流程及後續安全等相關問題。

程捷:數字孿生也是我們的重要規劃。在設計3.0版本數據模型時,我曾向研發和產品團隊分享,可觀測模型應實現數字孿生——將物理世界中的所有監控對象模型化,還原所有對象之間的靜態關係和運行狀態關係,這樣才能真正實現“可觀測”。這一目標目前仍有較長的路要走,但值得專業可觀測廠商持續加大投入。

議題三:AI + 可觀測性對運維組織文化、

協作方式帶來的重大變革

程捷:前面我們探討了挑戰和場景,接下來聊聊AI+可觀測性對組織、文化的變革展望。任何革命性新技術的推廣落地,最終都會推動人與組織的變革。想請教各位,引入AI和可觀測性後,對運維團隊的技能結構、協作流程、組織文化會帶來哪些衝擊和改變?作為團隊負責人,你們如何帶領團隊適應這場變革?

黃保慶:從華為的角度來看,最大的改變在於技能要求的轉變。比如需要掌握基於workflow的運維場景編排能力,以及MCP服務封裝等相關技能,這對團隊提出了新的挑戰。從服務的客户來看,金融機構的組織架構也發生了明顯變化,不少機構專門成立了智算中心或AI部門,負責AI平台能力建設。未來,AI應用的問題分析與定位,包括大模型調用、智能體運行等相關問題的排查,也將成為新的挑戰。

王澤峯:我們公司自上而下都非常重視AI,在考核上對AI相關工作有所傾斜,同時組織了大量培訓和交流活動。我們深刻認識到AI的重要性,積極擁抱AI變革,通過技術骨幹帶動其他成員,讓大家主動適應並掌握相關技能。

賀佔湘:我們團隊的變革是循序漸進的賦能,主要體現在三個方面:一是技能轉變,從以往擅長被動故障處理,轉向主動分析,需要學習APM相關指標的使用和配置等專業知識;二是協作模式升級,打破部門壁壘,以數據驅動構建協同機制,將所有數據整合至大屏,IT、工藝、生產等部門人員共同觀測數據、協同決策;三是文化理念轉變,從“救火英雄”的認知,轉向“預防專家”的理念,引導團隊聚焦故障預防。

權寧升:我更多從用户角度考慮AI的應用價值。我負責ES平台和ClickHouse平台,用户使用過程中面臨兩個核心需求:一是ES基於Lucene開發,語法複雜、學習成本高,用户希望通過自然語言處理,用中文描述查詢需求就能自動生成對應查詢語句,提升使用便捷性;二是全鏈路串聯後涉及大量指標和日誌數據,用户希望通過簡單提問就能獲取數據是否存在問題的分析結果。這需要AI充分了解公司內部業務數據,因此我們在部署AI時,更注重業務數據的全面性,將內部所有數據納入訓練,構建內部模型,更好地為用户解決複雜數據分析問題。所以我認為AI的價值主要體現在兩方面:一是讓用户使用更便捷;二是幫助用户解決複雜數據分析問題。

程捷:我也分享一下博睿數據的實踐。我們對產研組織架構進行了較大調整,核心思路是以AI為中心重構組織邏輯。軟件領域的康威定律指出,組織架構決定最終的軟件形態,要打造以AI為中心的新一代產品,首先需要調整組織架構。我們將團隊拆分為兩大板塊:一是AI底座團隊,負責數據底座和AI基礎能力建設;二是AI上層應用團隊,推動所有應用AI化。不同於以往按業務場景劃分團隊,現在按AI分層重構架構。短期內可能看不到明顯變化,但運行一段時間後,團隊的行為模式和認知會隨之轉變。

最後想請教王總,我非常期待運維領域出現更嚴肅的專有大模型。作為行業前沿探索者,您能否展望一下,未來3年AI+可觀測性會演化成何種形態?屆時運維團隊或運維工程師的工作方式會發生哪些較大改變?

王澤峯:當前AI+可觀測性處於發展初級階段,相信3年後將進入成熟期,行業會呈現優勝劣汰的格局。隨着AI技術的快速發展,AI+可觀測性將更加智能、高效,運維層面會實現大幅提升。

程捷:最後我來做一個簡單總結:

從華為的實踐中,我們學到了複雜嚴苛環境下構建可觀測性的戰略定力和全局視角;

從深圳農商行、國投證券的探索中,看到了金融行業在核心領域推動技術深度創新、實現業務全鏈路融合的勇氣;

從豪鵬科技的經驗中,感受到了AI+可觀測性在實體經濟中煥發出的強大生命力。

過程中我們也談到了諸多挑戰,比如數據質量問題、組織架構適配 AI 時代的問題等,但共識十分明確:AI與可觀測性的結合已不是選擇題,而是通往未來智能運維的必由之路。我們興奮地看到,AI+可觀測性讓Bonree ONE的產品戰略從可觀測平台升級為運維團隊的智能夥伴。2025年是Bonree ONE真正的AI元年,此前我們談到的AI更多是機器學習,並非真正的通用型AI。如今,我們推出了小睿助理,通過類人交互的方式與用户溝通,這標誌着我們正式邁入AI新時代。

再次感謝四位嘉賓的真知灼見,也感謝在場各位聽眾的參與,希望今天的論壇能給大家帶來啓發。

點贊 3 user favorite the story!

Add a new 評論

Some HTML is okay.