作者:元乙

點擊此處,觀看視頻解讀!

從可觀測再出發

回顧數十年可觀測的演進歷程,本質上反映了我們對複雜系統認知方式的變化。

最初,我們面向單一數據類型構建監控體系——CPU、內存、磁盤,一個個孤立的指標告訴我們“什麼地方出了問題”。隨着系統複雜度提升,我們開始收集多類數據——日誌、指標、鏈路並行發展,試圖從不同維度觀察同一個系統。

進一步,我們意識到這些數據間存在“關聯性”,開始嘗試將 Logs、Metrics、Traces 關聯分析,這就是所謂的“三大支柱”。但這種關聯往往停留在時間維度、資源維度、調用鏈維度上的簡單拼接,缺乏深層的語義聯繫。

UModel 數據治理:運維世界模型構建實踐_運維

然而,這些演進路徑都基於一個隱含假設:先收集數據,再從數據中推理出系統的真實狀態。這種“由數據到世界”的認知路徑,在面對日益複雜的分佈式系統時,逐漸暴露出根本性侷限。

這裏核心困境在於:從海量、異構、動態變化的數據中準確推理出真實世界的狀態,本質上是一個極其困難的逆向工程問題。數據只是現象,而現象與本質之間往往存在巨大的認知鴻溝。

如果從第一性原則重新審視這個問題,一個更有效的路徑是:先建模真實/IT世界,再針對性地獲取數據。這意味着我們需要從“數據驅動”轉向“模型驅動”,從面向現象的觀測轉向面向本質的建模。

AI 時代的建模必要性

大模型的出現給了我們強大的工具,但實踐中我們發現,當把這些“大腦”直接接入到“原始”的可觀測數據流中時,卻發現效果有限,往往還出現反作用。AI 缺乏對特定領域的結構化理解,面對沒有上下文、沒有關係的原始數據,幾乎不可能做出精準判斷。而這一現象在可觀測領域更為明顯。

基於在可觀測領域尤其是 AIOps 的多年經驗,阿里雲可觀測團隊在 19 年開始了可觀測數據建模的過程,並逐漸迭代和優化。這裏我們經歷了幾個提升過程:

  1. 數據標準化: 解決數據格式混亂問題,藉助 OpenTelemetry 開放標準,定義各類可觀測數據的互操作。
  2. 實體與關聯: 引入 EntitySet 概念描述 IT 世界的核心對象,通過 Link 建立實體間的調用、依賴、歸屬等關係,構建起 IT 系統的拓撲圖譜。
  3. 知識表達: 沉澱領域專家經驗,通過 Semantic 的 Set 表達“知識”,讓系統不僅有數據,還有相關背景和分析數據的方法。
  4. 行動能力: 支持操作能力建模,將“如何響應”的行動知識也納入體系,實現從觀測到分析到行動的閉環。

這些階段本身也是我們在做 AIOps 逐漸試錯和優化的過程,面對 AI 逐漸從理論、落地到改變世界的迅速推進,我們推出的 UModel 這一結構化的運維世界模型,將數據、邏輯和行動串聯起來,為 AI 提供了可推理、可交互的知識圖譜。

UModel:可泛化的運維數字化本體

UModel 數據治理:運維世界模型構建實踐_數據_02

UModel 是從可觀測領域出發,基於本體論思想構建的 IT 世界統一建模框架。它不僅僅是數據的抽象,更是一個融合數據、知識、行動三位一體的完整體系。

這一建模過程和業界領先的 Palantir 類似,Palantir 從國防安全領域出發逐漸做到通用 AI 應用領域的領先,其股價也坐火箭式上升。仔細分析 Palantir 的成功,其核心價值不在於 AI 算法本身,而在於底層的“本體”(Ontology)的落地。

上圖和 Palantir 的介紹類似,旨在描述運維數字化領域,以 UModel 為核心的可觀測運維數字化平台的能力。

借鑑 Palantir 的設計理念,UModel 通過圖模型將 IT 世界的三大要素統一:

  1. 數據層: 涵蓋全域實體和觀測數據,尤其包括各類關聯關係。
  2. 知識層: 沉澱領域專業知識,運維知識、分析模板、領域模型等。
  3. 行動層: 支撐自動化決策執行的各類操作定義。

為什麼 UModel 是可落地的、可持續的

建模這個概念並不新鮮,任何企業都可以提出“統一數據模型”的願景。但真正在企業落地且持續發揮作用,很容易走到技術至上論、項目化思維、數據湖即數據能力、重分析輕行動等認知誤區,最終導致“數據孤島與認知隔閡”、“洞察與行動脱節”、“智能化技術與業務割裂”等問題。

UModel 數據治理:運維世界模型構建實踐_數據_03

UModel 之所以能夠真正落地,在於我們系統性地解決了從理念到實踐的完整鏈路問題:

  1. 面向業務價值的系統設計: 阿里雲可觀測團隊服務數十萬家客户,且可觀測領域碎片化極其嚴重,UModel 從一開始就面向可觀測業務場景的核心痛點設計。不是為了建模而建模,而是為了解決實際的運維效率、故障定位、系統優化等具體業務問題。
  2. 構建持續進化的生態系統: 本身 UModel 不是一個“一次性交付”的項目,我們的目標是構建一個具備進化能力的生態系統,上述的幾個發展階段本身也是進化的結果。通過元模型架構,新的實體類型、數據類型、關係類型都可以在不影響現有系統的前提下平滑擴展。
  3. 客户價值與平台能力的雙飛輪效應: 我們一直致力於構建一個不僅能夠讓客户實現數據獲取、價值提取、決策、執行到驗證的客户價值閉環。同時在打造背後可觀測平台能力提升的閉環,包括 UModel、Agent、領域模型等,最終形成雙飛輪效應。

UModel 概述:用 Set 和 Link 構建 IT 世界

UModel 的設計與信息學“本體論”一致:用圖來描述對象與關係,用 Field 約束語義與質量。

核心 Set 類型

UModel 數據治理:運維世界模型構建實踐_建模_04

核心 Link 類型

UModel 數據治理:運維世界模型構建實踐_建模_05

典型例子:應用調用數據庫
  1. 定義 Service 與 DB 兩類 EntitySet,並建立 Service -> DB 的 Calls 關係。
  2. 定義 ServiceLogsServiceMetricsTraces 等 TelemetryDataSet,描述自身數據與調用產生的數據。
  3. 建立 TelemetryDataSet 與 EntitySet 的 DataLink。
  4. 定義具體實例及其 Storage 與 StorageLink。
  5. 定義 Service 與 DB 的 Runbook,描述操作手冊、分析模板、領域知識等。

通過上述建模,我們能直接獲知系統中有哪些 Service/DB 實例、產生了哪些數據、存儲位置與字段含義,以及操作手冊、分析模板、領域知識等,從而支持人/程序/大模型的統一分析。

UModel 的工程體系:從理念到系統工程

UModel 不是一個“靜態定義”,而是一套工程體系:

UModel 數據治理:運維世界模型構建實踐_數據_06

  • 元模型架構: UModel 並不直接定義 Field、DataSet、EntityLink 等概念,而是提供了一套“元模型”。基於元模型定義基礎屬性字段,通過組合、引用、繼承等關係,最終生成 UModel 定義,保證其可擴展性。整體迭代路徑符合“道生一、一生二、二生三、三生萬物”的思想。
  • 標準化與自動化: 提供標準化的可觀測 UModel 定義,大幅降低使用門檻;內部建立 CommonSchema 維護機制,保證 UModel 定義的高質量發展;提供自動化的實體關係生成、數據同步、元數據更新等管理能力,提升可操作性。
  • 技術基礎設施: 專為可觀測場景構建的實體、關係的存儲計算引擎,能夠快速回溯到任意時刻的系統狀態,支持高性能的圖查詢、關係計算、多維分析等能力。提供管道式、高性能 SPL 統一計算框架,支持關聯 UModel、實體、關係、觀測數據等各類數據。
  • 面向對象的分析: 從傳統面向數據的分析語法,進化到面向對象的“編程式”分析方式,支持運行時多態、動態方法調用等高級特性,讓分析過程更加貼近真實世界的對象交互模式。
  • 面向 AGI 的能力: 集成語義化搜索、GraphRAG 等面向 AI 的核心能力,上層接口提供 MCP、PaaS API 等,各方面均考慮 LLM 友好特性。

在工程化落地上,我們進一步強化了易用性與生產化能力:

  • CommonSchema: 沉澱阿里雲產品、K8s、APM 等常見數據結構,兼容 OpenTelemetry 等標準
  • 實體關係自動生成: 基於先驗知識與計算框架,自動從“應用&業務視角信息”關聯到“資源&雲產品視角信息”,生成跨域關係
  • 分析最佳實踐: 為 TelemetryDataSet 附加分析最佳實踐,包括開箱即用的大盤和告警等
基於 UModel 的可觀測應用與實踐

UModel 數據治理:運維世界模型構建實踐_數據_07

上圖是一個典型的 UModel 配置,在系統中定義了一系列的實體,包括應用層的服務/服務實例、K8s 相關實體、底層數據庫/主機、CICD 相關的 Job/Repo/操作人等。同時這一系列實體對應的可觀測數據也分別進行建模(受限於篇幅,實際這裏還會定義相關的 Explorer,便於快速查看數據,例如標準的 K8s、MySQL、服務大盤等;同時還有相關的告警配置)。上述所有的實例均以圖的方式進行連接。

基於上述的 UModel 配置,我們能夠構造出下圖所示的具體實體拓撲(受限於篇幅,只顯示一些示例實體)。接收到告警事件時,我們能夠進行多種排查方式:

  1. 根據實體的連接關係一步步排查,每類實體都有對應的可觀測數據,按圖索驥。
  2. 基於先驗知識進行定向排查,例如 Service 出現異常後,優先排查依賴的 Service、DB、中間件等調用是否出現問題。
  3. 由於故障多數由變更引起,可以優先查看近期相關的服務變更,優先排查變更服務。
  4. 通常故障時多個實體均會有告警事件產生,可以將所有告警事件關聯實體找出,畫出最小連接子圖輔助排查。

而上述這些排查方式,無論是人、程序還是大模型都可以基於 UModel 這一標準化定義而順暢工作,發揮出可觀測數據真正的價值。

UModel 數據治理:運維世界模型構建實踐_運維_08

基於 UModel 的可觀測應用

類似於 MVC 模型,UModel 在可觀測團隊中承載着 Model 的工作,在此之上我們徹底融合了原雲監控、ARMS、SLS 團隊的各類觀測應用,構成全新的“可觀測 2.0”:

  • 覆蓋所有類型的數據,從前端到網關、後端,從應用到中間件、基礎設施,從運維類數據到安全、業務。
  • 抽象並建模各類實體和關係,並生成各類跨域的實體關係,完成所有觀測實體的打通。
  • 基於 UModel 的統一 UI 能力,在任意界面、任意場景均可以接入可觀測“互聯網”。
  • 算法、模型不再是針對某個數據而設計,只要是 UModel 描述的數據都能夠被支持。

關於可觀測 2.0 相關的產品和設計理念,可參考:《雲棲實錄:重構可觀測 - 打造大模型驅動的雲監控 2.0 與 AIOps 新範式》。

UModel 數據治理:運維世界模型構建實踐_建模_09

More Than UModel:走向 AGI 的運維數字化

UModel 的核心是一種範式遷移:從“被動收集數據”到“主動建模世界”。當 AGI 成熟時,運維將從“人管機器”轉向“AI 理解並優化世界”的新範式:

  • 完整上下文感知:瞬間理解任意系統狀態的全域背景。
  • 主動系統優化:從被動響應告警到持續主動優化。
  • 預測性架構演進:基於業務趨勢提前規劃並自動完成複雜技術遷移。

我們相信,這一願景一定會實現!

"The best way to predict the future is to create it."

—— Peter Ducker