tag 監控

標籤
貢獻23
87
03:00 PM · Oct 26 ,2025

@監控 / 博客 RSS 訂閱

SRETALK - 底層的告警,上層業務應該收嗎?

有朋友問:我是業務應用的 DEV 或 SRE,我的應用依賴了底層服務和基礎設施,比如依賴基礎網絡、Kubernetes、MySQL、收銀台服務,那這些基礎服務如果出問題,我應該收告警嗎?夜鶯裏有個訂閲規則,是不是就是為此設計的? 本文講講筆者的個人理解,歡迎大家留言一起探討實踐經驗。 首先,請大家看一下上一篇文章《CPU負載高,到底應不應該告警?》,其中提到一個點:只有 actionable 的告

監控 , 告警風暴 , 告警

收藏 評論

sysin - Veeam ONE 13 正式版發佈 - Web 控制枱和 Veeam 監控的未來

Veeam ONE 13 正式版發佈 - Web 控制枱和 Veeam 監控的未來 Veeam ONE 13.0 for Windows x64 請訪問原文鏈接:https://sysin.org/blog/veeam-one-13/ 查看最新版。原創作品,轉載請保留出處。 作者主頁:sysin.org VEEAM ONE 整個 IT 環境的監控和分析 Veeam ONE 是 Veeam Av

監控

收藏 評論

觀測雲 - 觀測雲,全球領先的監控觀測平台亮相亞馬遜雲科技中國峯會!

觀測雲每年都不會缺席亞馬遜雲科技峯會 忙完一整季的產品發佈,我們終於將目光投向這場全球頂尖的雲技術盛會——2025亞馬遜雲科技中國峯會。如果你也在這個領域,應該已經感覺到了:這不只是一場大會,而是一個信號。AI、可觀測性、雲上安全……新的基礎設施秩序正在重建。 我們站出來,站到這個舞台中心,告訴全世界:中國的監控觀測平台,也能做到全球領先。 用技術與世界講述“中國方案” 老實説,我們早就不是小眾選

監控

收藏 評論

SRETALK - 夜鶯監控發佈 v8.beta5 版本,優化 UI,新增接口認證方式便於鑑權

以防讀者不瞭解夜鶯,開頭先做個介紹: 夜鶯監控,英文名字 Nightingale,是一款側重告警的監控類開源項目。類似 Grafana 的數據源集成方式,夜鶯也是對接多種既有的數據源,不過 Grafana 側重在可視化,夜鶯是側重在告警引擎。比如把 Prometheus、VictoriaMetrics、ElasticSearch 等作為數據源接入夜鶯,即可在夜鶯裏配置告警規則做指標、日誌的告警。當

運維自動化 , 監控 , prometheus , 開源監控軟件

收藏 評論

前端技術精髓 - 自制上報錯誤與監控性能

點擊獲取更多文章 下面核心代碼: !DOCTYPE html html lang="en" head meta charset="UTF-8" meta name="viewport" content="width=device-width, initial-scale=1.0" meta http-equiv="X-UA-Compatible" content="ie=e

監控 , javascript性能 , Javascript

收藏 評論

sysin - Veeam ONE 13 之初見 - Web 控制枱和 Veeam 監控的未來

Veeam ONE 13 之初見 - Web 控制枱和 Veeam 監控的未來 Veeam Data Platform | 面向混合雲和多雲的 備份和恢復 監控和分析 恢復編排 請訪問原文鏈接:https://sysin.org/blog/veeam-one-13/ 查看最新版。原創作品,轉載請保留出處。 作者主頁:sysin.org VEEAM ONE 趕快主動緩解威脅吧 檢測惡意備份活動,

監控 , 備份

收藏 評論

mob64ca13fd9f8e - Prometheus 監控系統入門學習

流處理聯動篇 —— Prometheus 與 Flink 集成(實時計算 + 智能監控) 一:概述 1)背景 2)Flink Metrics 的作用 3)Prometheus 集成 二:部署 1) `hadoop` 集羣搭建 2)部署 `Flink` 3)集成

睿象雲 , grafana , 監控 , 運維 , 後端開發 , prometheus , Python

收藏 評論

雲和恩墨 - 重塑數據庫安全體系:統一自動化監控平台為DBA帶來的運維價值

在數字化核心的數據庫運維領域,資深數據庫管理員(DBA)的一次手誤,可能引發一場波及全局的業務災難。傳統依賴命令行“黑箱”操作的模式,如同在精密儀器旁揮舞重錘,風險極高。將高危操作納入統一、可視化的自動化監控平台,不僅是工具的升級,更是一次深刻的運維範式變革。 本文將以Oracle數據庫“查殺會話”這一典型操作為引,聚焦DBA日常面臨的三大核心風險,系統闡述統一自動化監控平

oracle , 監控 , 運維 , 數據庫 , 數據安全 , SQL

收藏 評論

阿里雲大數據AI - 1TB數據,ES卻收到了2TB?揪出那個客户端中的“隱形復讀機”

你是否經歷過這樣的“靈異事件”: 業務監控顯示,你的日誌服務每秒只寫入了 50MB 的數據,全天累計寫入 1TB。 但在雲廠商的賬單,或者內網交換機的監控上,流量卻高達 100MB/s,全天消耗了 2TB 的帶寬。 網卡經常莫名其妙被打滿,造成正常的業務請求卡頓、丟包。 排查了一圈: 不是 TCP 重傳(Retransmission 正常)。 不是 SSL 握手膨脹(HTTPS 開銷沒那麼大

elasticsearch , 監控 , 阿里雲

收藏 評論

it排球君 - opentelemetry全鏈路初探--埋點與jaeger

前言 某天一位業務研發老哥跑來諮詢 研發老哥:我的服務出現了504,但是不太清楚是哪個環節報錯,每次請求需要訪問4個微服務、2個數據庫、1個redis、1個消息隊列。。。 苦逼運維:停停停,不要再説了,目前不支持鏈路追蹤,只能手動幫你一個服務一個服務的排查了 先請老哥大概描述了一下業務邏輯以及訪問方式,10分鐘過去了。再逐級排查每個服務以及對應訪問的資源層,終於在半小時之後完成了故障定位。

監控

收藏 評論

SRETALK - 夜鶯監控設計思考(一)整體定位、架構設計、單進程多進程選擇、高可用設計

這將是一個系列,講解 夜鶯監控 的設計思考,可以理解為原理+最佳實踐+產品設計時的折中取捨。 整體定位 瞭解一個開源項目,最應該瞭解的就是其定位,或者説它要解決的問題域。 夜鶯的定位就是四個字:告警引擎。夜鶯對接多種數據源(比如 Prometheus、VictoriaMetrics、MySQL、ClickHouse、Postgres、ElasticSearch),根據用户配置的告警規則,判定併產生

監控 , 告警

收藏 評論

觀測雲 - 連鎖門店可用性監測和進程監測最佳實踐

前言 在連鎖零售企業的數字化運營中,多門店通過網絡實時訪問總部業務系統(如收銀、庫存、會員管理等核心模塊)是其日常經營的基礎支撐。然而,由於門店分佈廣泛、網絡環境複雜,網絡或應用服務的任何中斷都可能直接阻斷交易流程、影響顧客體驗,進而造成即時營收損失與長期品牌信任損耗。據行業調研,門店單次網絡中斷平均會造成 15-30 分鐘的業務停滯,高峯時段(如週末、節假日)單店每小時營收損失可達數千元,疊加顧

監控

收藏 評論

夢想生活 - Node-RED:監控與告警:讓系統自己“喊救命”

Node-RED:監控與告警:讓系統自己“喊救命” 文章目錄 Node-RED:監控與告警:讓系統自己“喊救命” 摘要 一、為什麼需要監控?——Node-RED 的“盲區” 二、指標採集:讓 Node-RED “開口説話” 🔧 方案 1:使用 `node-re

自診斷 , 服務器 , MySQL , 監控 , 數據庫 , Linux , 網絡

收藏 評論

SRETALK - Prometheus 歷史峯值看不到了,這監控不準啊

經常在夜鶯社區收到用户反饋,説查詢某個監控指標,昨天的峯值是 xx,今天再次查詢,發現昨天的峯值看不到了,然後開始吐槽,你們這監控怎麼搞的,一點都不準啊。事實真的是這樣嗎? 真實原因 本質上這是因為 Prometheus 生態在查詢歷史數據時提供了一個 step 參數,大多數人對這個知識匱乏導致的疑問。 上圖是 Prometheus 的官方文檔,其他的時序庫比如 VictoriaMetrics、

監控 , prometheus

收藏 評論

SRETALK - 監控系統如何選型:Zabbix vs Prometheus

經常收到網友提問,監控系統選型,到底應該選擇 Zabbix 還是 Prometheus?本文談一下個人看法,希望對你有所啓發。 時代決定了基因 Zabbix 是 2001 年左右發佈的,那個時代,微服務和 Kubernetes 都不盛行,Zabbix 更多的是關注網絡設備、服務器、數據庫等傳統 IT 基礎設施的監控。Zabbix 的創始人是銀行運維出身,對於監控相關的各類零碎需求瞭解的非常透徹。

監控 , zabbix , prometheus , 告警

收藏 評論

it排球君 - opentelemetry全鏈路初探--python注入

前言 經過上一節,opentelemetry的基本操作都已經融會貫通,但是有位老哥提出疑問?我的代碼都已經寫完了,為了添加全鏈路,還需要重構之前的代碼嗎?那這個代價太大了。那本章就來討論一下opentelemetry的注入的問題 本小節主要關注python注入 使用裝飾器 使用裝飾器的好處就是非常靈活,並且對代碼入侵很小,只需要裝飾一下即可 decoration-s1.py import torn

監控

收藏 評論

SRETALK - Grafana 統一可視化了,告警如何統一?

對於大部分公司,通常都不止一套監控、可觀測性相關的系統,雲上的、雲下的,開源的、商業的,指標的、日誌的、鏈路的,各個系統體驗不同,權限難管,如何統一化併為各個團隊賦能,是很多技術負責人極為頭疼的問題。 要完全推翻現有的體系也不現實,畢竟遷移成本很高,而且誰能保證那些所謂的 all-in-one 的系統一定能在各方面勝出現有的平台?利舊的同時,把體驗和價值提升,或許是個路子。 Grafana 其實

grafana , 監控 , prometheus , 告警風暴 , 告警

收藏 評論

軟件部長 - 想搭建視頻監控平台?先搞懂這兩類成本再説!

視頻監控平台的成本包含哪些呢?視頻監控平台的成本包含兩類,一類是建設成本,一類是運營成本,也就是一次性的投入成本和持續化的使用成本。我們在分解各種成本前,先講解下視頻監控平台的整體架構,以便詳細分解清楚各種成本。 那麼我們先來看下整個視頻監控平台的整體架構,整體架構包含如下,接入層,平台管理層與業務應用層 首先我們來看一次性投入的成本,包括硬件的成本,那麼上述的所有功能裏邊除了

監控 , 物聯網 , 監控工具

收藏 評論

觀測雲 - 觀測雲OaC能力升級,通過Terraform實現配置閉環

Terraform 簡介 Terraform 是 Hashicorp 公司開源的一種資源編排工具,常用於管理多雲資源。利用 Terrafrom 提供的特定配置語言 HCL(Hashicorp Configuration Language)來定義資源,再由 Terraform 統一解析構建資源之間的依賴關係,生成執行計劃,調用各個廠商的具體實現來完成資源的生命週期管理。 跨平台特性:目前海內外累

監控

收藏 評論

Grewer - 前端白屏監控原理

前言 前端基建裏最重要的事情之一就是監控,性能,報錯,白屏等等,而今天要説的就是白屏的監控。 前端白屏是影響用户體驗的常見問題,通常有資源加載失敗、JS 執行錯誤、渲染阻塞、框架異常等原因。 今天就以頁面生命週期、錯誤捕獲、性能指標、框架特性等維度來描述怎麼監控。 關鍵節點判斷 核心原理 不管是傳統框架、界面、還是現代瀏覽器框架,都會有一個容器節點、關鍵節點,例如根節點,header節

白屏 , 監控 , 前端 , Javascript

收藏 評論

觀測雲 - Fastrace:Rust 中分佈式追蹤的現代化方案

原文鏈接:https://fast.github.io/blog/fastrace-a-modern-approach-to-dis... 摘要 在微服務架構中,分佈式追蹤對於理解應用程序的行為至關重要。雖然 tokio-rs/tracing 在 Rust 中被廣泛使用,但它存在一些顯著的挑戰:生態系統碎片化、配置複雜以及高開銷。 Fastrace 提供了一個可用於生產環境的解決方案,具有無縫的生

監控

收藏 評論

vivo互聯網技術 - JVM 內存大對象監控和優化實踐

作者:vivo 互聯網服務器團隊 - Liu Zhen、Ye Wenhao 服務器內存問題是影響應用程序性能和穩定性的重要因素之一,需要及時排查和優化。本文介紹了某核心服務內存問題排查與解決過程。首先在JVM與大對象優化上進行了有效的實踐,其次在故障轉移與大對象監控上提出了可靠的落地方案。最後,總結了內存優化需要考慮的其他問題。 一、問題描述 音樂業務中,core服務主要提供歌曲、歌手等元數據與用

內存 , 監控 , 故障 , 優化

收藏 評論

梁正雄的博客 - 12、prometheus持久化

Prometheus 持久化查詢 本章重點: 持久化查詢配置 promQL篇章: 表達式,豆包ai,偏移量修改器,指標類型,指標類型,聚合計算函數,持久化查詢 持久化查詢特點 為什麼需要持久化查詢? Prometheus 原生查詢存在兩大痛點 臨時查詢不可複用:複雜 PromQL 需重複編寫,

監控 , 運維 , 持久化 , bash , prometheus

收藏 評論

觀測雲 - 觀測雲接收 OpenTelemetry Collector 數據最佳實踐

OpenTelemetry 簡介 如果你在做系統運維或開發,建設可觀測性必然是近年來一個少不了的課題,同時相信你對 OpenTelemetry 也一定不陌生。OpenTelemetry 提供了一個統一、開放且不受特定廠商限制的標準和工具集,使得我們可以一次性集成 OTel SDK,全面採集應用的指標、日誌和鏈路追蹤數據,並自由地將數據發送到任何支持 OTel 協議的後端。 觀測雲 觀測雲是一個統一

監控

收藏 評論