UModel 數據治理：運維世界模型構建實踐詳情 - 數據,建模,運維,雲服務,雲計算 u_13778063 博客

作者：元乙

點擊此處，觀看視頻解讀！

從可觀測再出發

回顧數十年可觀測的演進歷程，本質上反映了我們對複雜系統認知方式的變化。

最初，我們面向單一數據類型構建監控體系——CPU、內存、磁盤，一個個孤立的指標告訴我們“什麼地方出了問題”。隨着系統複雜度提升，我們開始收集多類數據——日誌、指標、鏈路並行發展，試圖從不同維度觀察同一個系統。

進一步，我們意識到這些數據間存在“關聯性”，開始嘗試將 Logs、Metrics、Traces 關聯分析，這就是所謂的“三大支柱”。但這種關聯往往停留在時間維度、資源維度、調用鏈維度上的簡單拼接，缺乏深層的語義聯繫。

UModel 數據治理：運維世界模型構建實踐_運維

然而，這些演進路徑都基於一個隱含假設：先收集數據，再從數據中推理出系統的真實狀態。這種“由數據到世界”的認知路徑，在面對日益複雜的分佈式系統時，逐漸暴露出根本性侷限。

這裏核心困境在於：從海量、異構、動態變化的數據中準確推理出真實世界的狀態，本質上是一個極其困難的逆向工程問題。數據只是現象，而現象與本質之間往往存在巨大的認知鴻溝。

如果從第一性原則重新審視這個問題，一個更有效的路徑是：先建模真實/IT世界，再針對性地獲取數據。這意味着我們需要從“數據驅動”轉向“模型驅動”，從面向現象的觀測轉向面向本質的建模。

AI 時代的建模必要性

大模型的出現給了我們強大的工具，但實踐中我們發現，當把這些“大腦”直接接入到“原始”的可觀測數據流中時，卻發現效果有限，往往還出現反作用。AI 缺乏對特定領域的結構化理解，面對沒有上下文、沒有關係的原始數據，幾乎不可能做出精準判斷。而這一現象在可觀測領域更為明顯。

基於在可觀測領域尤其是 AIOps 的多年經驗，阿里雲可觀測團隊在 19 年開始了可觀測數據建模的過程，並逐漸迭代和優化。這裏我們經歷了幾個提升過程：

數據標準化： 解決數據格式混亂問題，藉助 OpenTelemetry 開放標準，定義各類可觀測數據的互操作。
實體與關聯： 引入 EntitySet 概念描述 IT 世界的核心對象，通過 Link 建立實體間的調用、依賴、歸屬等關係，構建起 IT 系統的拓撲圖譜。
知識表達： 沉澱領域專家經驗，通過 Semantic 的 Set 表達“知識”，讓系統不僅有數據，還有相關背景和分析數據的方法。
行動能力： 支持操作能力建模，將“如何響應”的行動知識也納入體系，實現從觀測到分析到行動的閉環。

這些階段本身也是我們在做 AIOps 逐漸試錯和優化的過程，面對 AI 逐漸從理論、落地到改變世界的迅速推進，我們推出的 UModel 這一結構化的運維世界模型，將數據、邏輯和行動串聯起來，為 AI 提供了可推理、可交互的知識圖譜。

UModel：可泛化的運維數字化本體

UModel 數據治理：運維世界模型構建實踐_數據_02

UModel 是從可觀測領域出發，基於本體論思想構建的 IT 世界統一建模框架。它不僅僅是數據的抽象，更是一個融合數據、知識、行動三位一體的完整體系。

這一建模過程和業界領先的 Palantir 類似，Palantir 從國防安全領域出發逐漸做到通用 AI 應用領域的領先，其股價也坐火箭式上升。仔細分析 Palantir 的成功，其核心價值不在於 AI 算法本身，而在於底層的“本體”（Ontology）的落地。

上圖和 Palantir 的介紹類似，旨在描述運維數字化領域，以 UModel 為核心的可觀測運維數字化平台的能力。

借鑑 Palantir 的設計理念，UModel 通過圖模型將 IT 世界的三大要素統一：

數據層： 涵蓋全域實體和觀測數據，尤其包括各類關聯關係。
知識層： 沉澱領域專業知識，運維知識、分析模板、領域模型等。
行動層： 支撐自動化決策執行的各類操作定義。

為什麼 UModel 是可落地的、可持續的

建模這個概念並不新鮮，任何企業都可以提出“統一數據模型”的願景。但真正在企業落地且持續發揮作用，很容易走到技術至上論、項目化思維、數據湖即數據能力、重分析輕行動等認知誤區，最終導致“數據孤島與認知隔閡”、“洞察與行動脱節”、“智能化技術與業務割裂”等問題。

UModel 數據治理：運維世界模型構建實踐_數據_03

UModel 之所以能夠真正落地，在於我們系統性地解決了從理念到實踐的完整鏈路問題：

面向業務價值的系統設計： 阿里雲可觀測團隊服務數十萬家客户，且可觀測領域碎片化極其嚴重，UModel 從一開始就面向可觀測業務場景的核心痛點設計。不是為了建模而建模，而是為了解決實際的運維效率、故障定位、系統優化等具體業務問題。
構建持續進化的生態系統： 本身 UModel 不是一個“一次性交付”的項目，我們的目標是構建一個具備進化能力的生態系統，上述的幾個發展階段本身也是進化的結果。通過元模型架構，新的實體類型、數據類型、關係類型都可以在不影響現有系統的前提下平滑擴展。
客户價值與平台能力的雙飛輪效應： 我們一直致力於構建一個不僅能夠讓客户實現數據獲取、價值提取、決策、執行到驗證的客户價值閉環。同時在打造背後可觀測平台能力提升的閉環，包括 UModel、Agent、領域模型等，最終形成雙飛輪效應。

UModel 概述：用 Set 和 Link 構建 IT 世界

UModel 的設計與信息學“本體論”一致：用圖來描述對象與關係，用 Field 約束語義與質量。

核心 Set 類型

UModel 數據治理：運維世界模型構建實踐_建模_04

核心 Link 類型

UModel 數據治理：運維世界模型構建實踐_建模_05

典型例子：應用調用數據庫

定義 Service 與 DB 兩類 EntitySet，並建立 Service -> DB 的 Calls 關係。
定義 ServiceLogs、ServiceMetrics、Traces 等 TelemetryDataSet，描述自身數據與調用產生的數據。
建立 TelemetryDataSet 與 EntitySet 的 DataLink。
定義具體實例及其 Storage 與 StorageLink。
定義 Service 與 DB 的 Runbook，描述操作手冊、分析模板、領域知識等。

通過上述建模，我們能直接獲知系統中有哪些 Service/DB 實例、產生了哪些數據、存儲位置與字段含義，以及操作手冊、分析模板、領域知識等，從而支持人/程序/大模型的統一分析。

UModel 的工程體系：從理念到系統工程

UModel 不是一個“靜態定義”，而是一套工程體系：

UModel 數據治理：運維世界模型構建實踐_數據_06

元模型架構： UModel 並不直接定義 Field、DataSet、EntityLink 等概念，而是提供了一套“元模型”。基於元模型定義基礎屬性字段，通過組合、引用、繼承等關係，最終生成 UModel 定義，保證其可擴展性。整體迭代路徑符合“道生一、一生二、二生三、三生萬物”的思想。
標準化與自動化： 提供標準化的可觀測 UModel 定義，大幅降低使用門檻；內部建立 CommonSchema 維護機制，保證 UModel 定義的高質量發展；提供自動化的實體關係生成、數據同步、元數據更新等管理能力，提升可操作性。
技術基礎設施： 專為可觀測場景構建的實體、關係的存儲計算引擎，能夠快速回溯到任意時刻的系統狀態，支持高性能的圖查詢、關係計算、多維分析等能力。提供管道式、高性能 SPL 統一計算框架，支持關聯 UModel、實體、關係、觀測數據等各類數據。
面向對象的分析： 從傳統面向數據的分析語法，進化到面向對象的“編程式”分析方式，支持運行時多態、動態方法調用等高級特性，讓分析過程更加貼近真實世界的對象交互模式。
面向 AGI 的能力： 集成語義化搜索、GraphRAG 等面向 AI 的核心能力，上層接口提供 MCP、PaaS API 等，各方面均考慮 LLM 友好特性。

在工程化落地上，我們進一步強化了易用性與生產化能力：

CommonSchema： 沉澱阿里雲產品、K8s、APM 等常見數據結構，兼容 OpenTelemetry 等標準
實體關係自動生成： 基於先驗知識與計算框架，自動從“應用&業務視角信息”關聯到“資源&雲產品視角信息”，生成跨域關係
分析最佳實踐： 為 TelemetryDataSet 附加分析最佳實踐，包括開箱即用的大盤和告警等

基於 UModel 的可觀測應用與實踐

UModel 數據治理：運維世界模型構建實踐_數據_07

上圖是一個典型的 UModel 配置，在系統中定義了一系列的實體，包括應用層的服務/服務實例、K8s 相關實體、底層數據庫/主機、CICD 相關的 Job/Repo/操作人等。同時這一系列實體對應的可觀測數據也分別進行建模（受限於篇幅，實際這裏還會定義相關的 Explorer，便於快速查看數據，例如標準的 K8s、MySQL、服務大盤等；同時還有相關的告警配置）。上述所有的實例均以圖的方式進行連接。

基於上述的 UModel 配置，我們能夠構造出下圖所示的具體實體拓撲（受限於篇幅，只顯示一些示例實體）。接收到告警事件時，我們能夠進行多種排查方式：

根據實體的連接關係一步步排查，每類實體都有對應的可觀測數據，按圖索驥。
基於先驗知識進行定向排查，例如 Service 出現異常後，優先排查依賴的 Service、DB、中間件等調用是否出現問題。
由於故障多數由變更引起，可以優先查看近期相關的服務變更，優先排查變更服務。
通常故障時多個實體均會有告警事件產生，可以將所有告警事件關聯實體找出，畫出最小連接子圖輔助排查。

而上述這些排查方式，無論是人、程序還是大模型都可以基於 UModel 這一標準化定義而順暢工作，發揮出可觀測數據真正的價值。

UModel 數據治理：運維世界模型構建實踐_運維_08

基於 UModel 的可觀測應用

類似於 MVC 模型，UModel 在可觀測團隊中承載着 Model 的工作，在此之上我們徹底融合了原雲監控、ARMS、SLS 團隊的各類觀測應用，構成全新的“可觀測 2.0”：

覆蓋所有類型的數據，從前端到網關、後端，從應用到中間件、基礎設施，從運維類數據到安全、業務。
抽象並建模各類實體和關係，並生成各類跨域的實體關係，完成所有觀測實體的打通。
基於 UModel 的統一 UI 能力，在任意界面、任意場景均可以接入可觀測“互聯網”。
算法、模型不再是針對某個數據而設計，只要是 UModel 描述的數據都能夠被支持。

關於可觀測 2.0 相關的產品和設計理念，可參考：《雲棲實錄：重構可觀測 - 打造大模型驅動的雲監控 2.0 與 AIOps 新範式》。

UModel 數據治理：運維世界模型構建實踐_建模_09

More Than UModel：走向 AGI 的運維數字化

UModel 的核心是一種範式遷移：從“被動收集數據”到“主動建模世界”。當 AGI 成熟時，運維將從“人管機器”轉向“AI 理解並優化世界”的新範式：

完整上下文感知：瞬間理解任意系統狀態的全域背景。
主動系統優化：從被動響應告警到持續主動優化。
預測性架構演進：基於業務趨勢提前規劃並自動完成複雜技術遷移。

我們相信，這一願景一定會實現！

"The best way to predict the future is to create it."

—— Peter Ducker

u_13778063 博客

u_13778063 博客

博客 / 詳情