Stories

Detail Return Return

運營商實戰成果!分佈式架構可觀測能力建設全攻略 - Stories Detail

本文來自騰訊藍鯨智雲社區用户: CanWay

近年來,隨着企業業務規模日益龐大,IT架構日益複雜,雲計算、微服務等一系列技術在各企業內部開始逐步探索落地。技術的發展不僅對企業內部運維管理產生了極大的挑戰,對於監控體系也提出了更高的要求。
某運營商公司在IT架構搭建、組織部門規劃時,大膽採用先進理念,進行了全部業務系統的分佈式設計、SRE運維部門的分工創建。嘉為藍鯨全棧智能觀測中心在其中為業務系統的研發測試、快速迭代提供了重要的工具能力支撐;為SRE運維組觀測業務系統運行情況、及時定位分析處置告警提供了統一能力平台。

01業務場景

分佈式、微服務、雲原生等先進應用架構在落地敏捷開發、快速迭代、彈性伸縮的同時將原有的單體應用拆分成多個獨立部署相互通信的組合應用。應用數量指數級增長,業務模塊間依賴關係錯綜複雜,不同業務層級不同維度難以建立實時有效的映射關係。同時,隨着容器頻繁啓停,監控對象及其指標變化成為常態,故障現場難以留存、故障問題難以有效定位。

02分析痛點

以上雲原生架構的觀測難點給應用運維的故障分析、根因定位、業務連續穩定帶來嚴峻挑戰。應用觀測難點概述為以下兩點:

信息維度複雜,難以建立多維數據關聯映射關係雲原生應用的監控度量涉及應用進程、中間件、容器編排平台、容器進程、資源基礎設施等相關層級資源屬性和性能指標;其次,應用排障及性能剖析涉及多個服務、多個組件複雜交互關係,需根據請求鏈路依賴關係分析故障根因。

架構動態變化,故障現場難以留存,問題難以定位容器部署架構基於聲明式面向終態的設計思想,部署資源實例對象變更頻繁,服務節點漂移成為常態。基於多維明細數據和指標數據關聯映射構建的運行時觀測分析矩陣能有效回溯歷史故障現場。

03解決方案

合縱連橫故障尋址縱向:建立運行時軟件架構級聯對象下鑽分析邏輯。基於實際業務流量構建不同服務的全局依賴拓撲,實現可選時間範圍的單業務領域全景分析,通過拓撲節點大小、顏色差異有效分析服務流量負載及服務健康狀態,支持對服務節點的下鑽分析、指定時間範圍內服務請求、負載、錯誤、耗時黃金指標,在服務內可下鑽分析服務的單一接口/單一服務實例進一步故障尋址分析。將服務實例與CMDB管理資源(主機、容器)關聯,可下鑽至IaaS層資源,分析IT基礎資源指標異常對服務流量的影響。
橫向:基於Trace串聯構建單筆請求鏈路追蹤。每筆業務請求調用在入口服務生成請求唯一標識,當流量在下游多個服務傳遞時將請求唯一標識、當前節點請求標識、上游服務信息作為上下文傳遞,從而構建完成業務調用鏈路。此外,用户可結合實際業務場景從HTTP請求頭、請求參數、cookie等獲取業務特徵數據完成數據埋點,在鏈路分析時根據指定業務特徵的請求依賴關係輔助業務異常分析。

調用鏈與日誌明細關聯根因定位在KAPM和KLC共同交付場景下,可將調用鏈和日誌明細進行關聯,實現高效根因定位。通過KAPM調用鏈分析能力用户可以確定請求依賴關係、縮小排障範圍、準確故障尋址,但無法獲取故障根因明細,在此場景下將調用鏈和日誌明細關聯無縫鏈接排障最後“一公里”。

04 建設成效

實現應用系統可觀測全覆蓋,拓撲指標一站式監控實現應用系統拓撲自動生成,解決新模式下應用架構分析難題實現周邊資產自動關聯,提升系統運行故障分析效率實現應用調用鏈採樣分析,系統運行精確到每一筆請求

05 場景適用性

嘉為藍鯨可觀測中心適用於企業內部系統分佈式架構設計,微服務化系統單元的場景。適用於以下類型的企業:正在或已經完成分佈式架構改造的企業應用開發或運維人員對應用性能觀測有認知、有需求、會使用的企業監控告警日誌體系已經具備,希望在基礎監控基礎上深入可觀測能力的企業已經部署嘉為鯨眼其他模塊產品,希望實現一體化可觀測中心的企業應用開發排障難、迭代效率低下,希望通過可觀測產品協助實現快速研發的企業

user avatar juicefs Avatar u_16077267 Avatar hnclou Avatar coderdd Avatar cloudace Avatar abelethan Avatar dihuangwan Avatar
Favorites 7 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.