作者:隰宗正(霜鍵)

從“看”指標到“懂”指標的進化

1.1 “指標洪水”與“分析赤字”的困境

隨着業務全面上雲和微服務架構的普及,我們正迎來一個“大觀測”的時代。系統的每一個角落都在產生海量的指標數據(Metrics),它們是衡量系統健康度的關鍵。然而,數據的極大豐富也帶來了新的困境——“指標洪水”。運維團隊和 SRE 工程師們發現自己被淹沒在無窮無盡的監控大盤和告警信息中,患上了“告警&大盤疲勞症”。

傳統的監控系統本質上是“數據展示平台”。它們能夠準確地將數據從時序數據庫中取出,繪製成曲線,然後呈現給用户。

這種模式隱含了一個關鍵假設:用户知道應該看什麼,並且能夠從紛繁複雜的曲線中自行解讀出問題的根源。在系統規模尚小、維度較少時,這套方法尚能奏效。

但在今天,一個服務動輒擁有成百上千個實例,每個實例又有數十個維度的標籤(地域、可用區、版本號等),這意味着一個指標背後是數萬甚至數百萬條獨立的時間序列。當問題發生時,依賴人眼去逐一排查,無異於大海撈針。我們面臨着嚴重的“分析赤字”:擁有海量數據,卻缺乏從中高效提取有效信息的能力。

1.2 從被動展示到主動引導

要走出這一困境,監控工具必須完成一次核心範式的轉變:從被動的“數據展示”進化為主動的“分析引導”。 我們認為,一個現代化的指標分析平台,其價值不應僅僅是“看”指標,更核心的是幫助用户“懂”指標。它應該像一個經驗豐富的 SRE 專家,能夠自動在海量數據中發現異常,並主動引導用户一步步定位問題的根源。

MetricSet Explorer 正是基於這一理念設計的。它的核心思路是將成熟的機器學習算法與運維專家的排障經驗相結合,將複雜的分析過程產品化、自動化。 我們構建了三大智能分析引擎,它們共同構成了一個強大的分析“漏斗”,幫助用户從海量的指標數據中快速篩選、聚焦並定位問題。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_數據

異常檢測引擎: 作為“漏斗”的入口,它自動巡檢所有指標,通過統計算法識別出那些行為模式異於常規的指標,將它們高亮呈現在用户面前,完成從“普遍”到“異常”的第一次篩選。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_羣組_02

時序聚類引擎(智能分組): 當用户需要理解一個維度下不同個體的行為模式時(例如上千個 Pod 的 CPU 使用率),該引擎能自動將成百上千條曲線按照形態相似度進行分組,幫助用户快速識別出系統中的“幾類玩家”,完成從“個體”到“羣體”的模式識別。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_可觀測_03

根因定位引擎(智能下鑽): 這是“漏斗”最窄的一環,也是技術含量最高的部分。當用户圈定一個異常時間段後,該引擎會分析所有維度組合對整體異常的貢獻度,最終以“根因評分”的方式,直接告訴用户哪個維度組合是問題的“罪魁禍首”。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_數據_04

這三大引擎協同工作,將傳統監控中高度依賴人工經驗的分析過程,轉變為一套自動化的、可復現的分析流程。

界面佈局與功能區域

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_阿里雲_05

產品界面主要分為三個區域:頂部工具欄、指標概覽區和詳情分析區。 這樣的佈局設計既保證了信息的層次性,又便於用户在不同分析場景間快速切換。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_數據_06

頂部工具欄是整個系統的控制中心,從左到右依次是:存儲選擇器、指標搜索、標籤過濾器和高級功能區。存儲選擇器允許用户在多個數據源間切換,這在跨集羣或跨環境分析時特別有用。指標搜索支持模糊匹配,無論是通過指標 ID、中文名還是英文名,都能快速定位目標指標。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_羣組_07

標籤過濾器是一個強大但易用的功能。在可觀測性領域,標籤(Label)是數據的核心維度,比如服務名、地域、實例 ID 等。MetricSet Explorer 的全局標籤過濾器能夠同時作用於所有指標,讓用户可以輕鬆聚焦到特定範圍的數據上。

高級功能區集成了三個實用功能:

功能

説明

典型場景

準星聯動

多個圖表的鼠標懸停位置同步

對比分析多個指標在同一時間點的表現

時間對比

疊加顯示歷史時段的數據曲線

環比分析,識別週期性模式

異常檢測

基於檢測算法智能標註異常點

快速發現數據中的異常波動

指標概覽模式

進入系統後,首先看到的是指標概覽頁。產品支持兩種展示方式:普通視圖和異常視圖。

在普通視圖下,指標按照黃金指標和基礎指標分類展示。黃金指標通常是對系統健康度最有代表性的幾個核心指標,比如請求延遲、錯誤率、吞吐量等。這種分類方式源於 SRE 實踐中的最佳實踐,能夠幫助用户快速抓住系統的關鍵狀態。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_阿里雲_08

當啓用異常檢測功能後,界面自動切換到異常視圖。此時系統會對所有指標運行異常檢測算法,並按照異常評分從高到低排序。對於每個指標,異常區域會通過特殊的顏色高亮顯示,異常評分也會清晰標註。這個功能在故障排查場景下尤其有用——當告警觸發時,運維人員可以快速啓用異常檢測,系統會自動將最可能有問題的指標排在前面。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_阿里雲_09

概覽頁的每個指標卡片不僅展示曲線,還提供了快捷操作入口。點擊卡片可以進入詳情分析模式,開始更深入的探索。

詳情分析模式

詳情分析是 MetricSet Explorer 的核心能力所在。當選中一個或多個指標後,界面進入詳情模式,此時可以看到更大的圖表以及三個強大的分析標籤頁:下鑽分析、智能分組和智能下鑽。

4.1 下鑽分析

下鑽分析是最常用的探索方式。它的邏輯很直觀:從整體到局部,逐層深入。

舉個例子,假設我們發現請求延遲指標出現了尖峯。首先在概覽頁點擊該指標進入詳情,此時看到的是全局聚合後的曲線。接下來選擇一個維度進行下鑽,比如按“服務”分組。系統會立即展示每個服務的延遲曲線,很可能我們會發現某一個服務的延遲特別高。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_數據_10

繼續深入,選中這個異常服務,再按“調用類型”下鑽。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_可觀測_11

逐層分析下去,最終可以精確定位到具體的問題調用。MetricSet Explorer 支持多層級的下鑽,每一層都會保留上一層的過濾條件,形成完整的分析鏈路。

產品還支持 ALL 模式下鑽,這是一個非常實用的功能。在 ALL 模式下,系統會自動遍歷所有可下鑽的維度,找出數據分佈差異最大的那些維度。這在維度很多、不確定從哪個角度分析時特別有幫助。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_阿里雲_12

4.2 智能分組

有些時候,我們關心的不是具體某個維度值的表現,而是希望發現數據中存在的模式或羣組。智能分組功能正是為此設計。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_阿里雲_13

智能分組基於時序聚類算法工作。用户選擇需要分析的維度(可以是多個維度的組合),系統會將所有時間序列按照形態相似度進行聚類。最終呈現的結果是若干個羣組,每個羣組包含形態相似的曲線。

這個功能在容量規劃、資源優化場景下特別有價值。比如分析大量實例的 CPU 使用率時,通過智能分組可以快速識別出高負載、中負載和低負載三類實例,進而針對性地進行資源調整。

聚類結果以表格形式呈現,每一行代表一個羣組,表格列包括:

  • 羣組 ID: 自動分配的羣組編號
  • 成員: 包含屬於該羣組的時間序列數量、該羣組成員的典型維度值
  • 曲線預覽: 該羣組的代表性曲線

點擊任一羣組可以展開查看詳細的成員列表和完整曲線對比。

4.3 智能下鑽

智能下鑽是 MetricSet Explorer 最具技術含量的功能,它能夠自動進行根因定位。

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_可觀測_14

使用這個功能時,用户需要先在時間軸上框選一個異常時間段。系統會基於這個時間段,運行 series_drilldown 算法,自動分析所有維度組合,找出對異常貢獻最大的那些維度取值。

最終結果以表格形式呈現,按根因評分降序排列。每一行包含:

  • 根因模式: 導致異常的維度組合,例如“地域=華北,可用區=可用區A”
  • 置信度: 該模式對整體異常的貢獻程度,0-1 之間的數值
  • 影響曲線: 該模式下的數據曲線
  • 對比基線: 除去該模式下的其他曲線

這個功能大大縮短了故障定位時間。在傳統方式下,運維人員可能需要嘗試十幾種維度組合才能找到問題根源,而智能下鑽只需幾秒鐘就能給出答案。

高級功能與技巧

5.1 多指標對比分析

詳情模式下支持同時添加多個指標進行對比。這在分析指標間的相關性時非常有用。比如同時查看 CPU 使用率和請求延遲,可以直觀判斷性能瓶頸是否與資源有關。

5.2 查詢語句查看

對於技術用户,MetricSet Explorer 提供了查詢語句查看功能。點擊圖表右上角的“查詢”按鈕,可以看到生成該圖表的完整查詢語句。這不僅有助於理解數據來源,也方便用户將分析邏輯遷移到其他平台或腳本中。

5.3 圖表交互

從“看曲線”到“懂問題”:MetricSet Explorer 如何重構指標分析體驗_可觀測_15

產品的圖表支持豐富的交互操作:

  • 縮放: 鼠標框選某個時間範圍可以放大查看
  • 懸停提示: 鼠標懸停時顯示精確的數值和時間戳
  • 圖例控制: 點擊圖例可以隱藏/顯示對應曲線
  • 收起/展開: 支持摺疊圖表區域以便專注於分析結果

典型使用場景

讓我們通過幾個實際場景來展示 MetricSet Explorer 的價值。

場景一:快速故障定位

某電商平台在促銷活動期間收到大量告警,顯示訂單服務響應時間超出閾值。運維人員打開 MetricSet Explorer,進行如下操作:

  1. 啓用異常檢測,系統自動將“訂單創建耗時”指標排在首位
  2. 進入詳情,框選異常時間段,啓動智能下鑽
  3. 系統分析後指出根因:地域=華南 + 數據庫實例=db-05
  4. 確認該實例存在磁盤 IO 瓶頸,立即進行流量切換

場景二:容量規劃

SRE 團隊需要評估是否需要擴容 Redis 集羣。使用智能分組功能:

  1. 選擇“Redis 內存使用率”指標,按實例維度進行智能分組
  2. 系統識別出三個羣組:高負載(15 個實例)、中負載(40 個實例)、低負載(25 個實例)
  3. 團隊決定將低負載實例的流量導到高負載實例,暫不擴容
  4. 通過時間對比功能,驗證調整後的效果

場景三:變更影響評估

開發團隊發佈了新版本,需要評估對性能的影響。使用時間對比功能:

  1. 查看核心指標,啓用 1 天前的時間對比
  2. 疊加顯示發佈前後的曲線
  3. 發現某個接口的 P99 延遲上升了 20%
  4. 結合下鑽分析,定位到新增的某個數據庫查詢是瓶頸所在

點擊此處查看視頻演示。