Charity Majors 的這句話可能是對科技行業當前可觀察性狀態的最好總結——完全的、大規模的混亂。大家都很困惑。什麼是 trace?什麼是 span?一行日誌就是一個 span 嗎?如果我有日誌,我還需要 trace 嗎?如果我有很好的 metric,為什麼還需要 trace?諸如此類的問題不勝枚舉。Charity 與 Honeycomb 可觀測系統中的其他傑出人士一起,一直在努力解決這
夜鶯項目( https://github.com/ccfos/nightingale )發佈了 v8.0.0-beta.3 版本,這個版本主要是支持了 ES 日誌告警,下面給大家介紹一下。 新版本下載 到如下地址下載發佈包: https://github.com/ccfos/nightingale/releases/tag/v8.0.0-beta.3 由於夜鶯 v8 版本默認配置使用 sql
這將是一個系列,講解 夜鶯監控 的設計思考,可以理解為原理+最佳實踐+產品設計時的折中取捨。 整體定位 瞭解一個開源項目,最應該瞭解的就是其定位,或者説它要解決的問題域。 夜鶯的定位就是四個字:告警引擎。夜鶯對接多種數據源(比如 Prometheus、VictoriaMetrics、MySQL、ClickHouse、Postgres、ElasticSearch),根據用户配置的告警規則,判定併產生
筆者做監控 11 年,在可觀測性領域創業 4 年,與各類客户溝通較多,發現很多企業想要建設可觀測性體系,但是不得章法,我把整個建設過程做了一個簡單總結,梳理一下其中的脈絡,希望對你有所啓發。 整個可觀測性體系建設,我總結為五個步驟: 明業務 立規範 採數據 顯特徵 獲洞見 下面挨個説明,可觀測性體系涉及到的內容太過駁雜龐大,本文更多是説明思路,不涉及實操。 明業務 首先,要把您的業務
經常收到網友提問,監控系統選型,到底應該選擇 Zabbix 還是 Prometheus?本文談一下個人看法,希望對你有所啓發。 時代決定了基因 Zabbix 是 2001 年左右發佈的,那個時代,微服務和 Kubernetes 都不盛行,Zabbix 更多的是關注網絡設備、服務器、數據庫等傳統 IT 基礎設施的監控。Zabbix 的創始人是銀行運維出身,對於監控相關的各類零碎需求瞭解的非常透徹。
本文介紹夜鶯開源項目(Nightingale)的模板函數,夜鶯內置了很多模板函數,可以對告警事件做一些渲染調整,方便 On-call 人員根據告警事件處理告警。 本文大綱: 夜鶯開源項目簡介 夜鶯模板函數用途場景 夜鶯模板函數分類 附加查詢函數 格式化函數 字符串處理函數 時間處理函數 數學運算函數 數據處理函數 夜鶯項目簡介 夜鶯監控(Nightingale)是一款側重告
有朋友問:我是業務應用的 DEV 或 SRE,我的應用依賴了底層服務和基礎設施,比如依賴基礎網絡、Kubernetes、MySQL、收銀台服務,那這些基礎服務如果出問題,我應該收告警嗎?夜鶯裏有個訂閲規則,是不是就是為此設計的? 本文講講筆者的個人理解,歡迎大家留言一起探討實踐經驗。 首先,請大家看一下上一篇文章《CPU負載高,到底應不應該告警?》,其中提到一個點:只有 actionable 的告
夜鶯監控項目最核心的定位,是做一個告警引擎,支持多種數據源的告警。這個版本的更新主要是增加了對 MySQL 數據源的支持,進一步增強了夜鶯在業務指標監控方面的能力。 之前版本的夜鶯主要聚焦在 Prometheus、VictoriaMetrics、ElasticSearch 等傳統監控數據源上,從上個版本引入 ClickHouse 開始,夜鶯開始支持更多樣化的數據源,本次版本迭代則引入了 MySQL
這個版本來得遲了一些,主要是新功能加的多,下面簡單介紹一下新功能,下下週也計劃做一次直播講解。 支持 ClickHouse 告警 夜鶯最重要的定位是告警引擎,所以會持續增加各類數據源的告警支持,ClickHouse 之後還有 Doris、MySQL、Postgres 等。 開源版主要是支持告警,不會支持看圖可視化,實在是做不過來,答疑也答疑不過來。 引入事件 Pipeline 告警引擎根據告警規則
經常在夜鶯社區收到用户反饋,説查詢某個監控指標,昨天的峯值是 xx,今天再次查詢,發現昨天的峯值看不到了,然後開始吐槽,你們這監控怎麼搞的,一點都不準啊。事實真的是這樣嗎? 真實原因 本質上這是因為 Prometheus 生態在查詢歷史數據時提供了一個 step 參數,大多數人對這個知識匱乏導致的疑問。 上圖是 Prometheus 的官方文檔,其他的時序庫比如 VictoriaMetrics、
以防讀者不瞭解夜鶯,開頭先做個介紹: 夜鶯監控,英文名字 Nightingale,是一款側重告警的監控類開源項目。類似 Grafana 的數據源集成方式,夜鶯也是對接多種既有的數據源,不過 Grafana 側重在可視化,夜鶯是側重在告警引擎。比如把 Prometheus、VictoriaMetrics、ElasticSearch 等作為數據源接入夜鶯,即可在夜鶯裏配置告警規則做指標、日誌的告警。當
對於大部分公司,通常都不止一套監控、可觀測性相關的系統,雲上的、雲下的,開源的、商業的,指標的、日誌的、鏈路的,各個系統體驗不同,權限難管,如何統一化併為各個團隊賦能,是很多技術負責人極為頭疼的問題。 要完全推翻現有的體系也不現實,畢竟遷移成本很高,而且誰能保證那些所謂的 all-in-one 的系統一定能在各方面勝出現有的平台?利舊的同時,把體驗和價值提升,或許是個路子。 Grafana 其實
開源的監控產品有很多,其中最知名的,當屬早期的 Zabbix 和現在的 Prometheus。Zabbix 是 2001 年發佈的,至今已經 20 多年,很多細節打磨的相當到位,Prometheus 是 2014 年發佈的,相對年輕,依託於之前 Google Borgmon 的先進經驗和靈感,Prometheus 在雲原生監控領域有着非常好的表現。 咦?你怎麼沒有提到你們自己開源的 Nighti
VictoriaMetrics 中文教程系列文章: VictoriaMetrics 中文教程(01)簡介 VictoriaMetrics 中文教程(02)安裝 VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把數據遠程寫入 VictoriaMetrics VictoriaMetrics 中文教程(04)對接 Grafana 同時介紹 vmui Vi
Prometheus 告警事件中的 $value 表示當前告警觸發時的值,但是在告警恢復時,Resolved 事件中的 $value 仍然是最新告警時的值,並非是恢復時的值,這是什麼原因和原理?是否有辦法來解決呢? 不廢話,先説原理。 原理 告警規則是配置在 prometheus.yaml 中的,由 Prometheus 負責做規則判定。Prometheus 規則判定的邏輯也很簡單,就是週期性的,
本文翻譯自:https://sematext.com/blog/top-10-must-have-alerts-for-kuberne... 運行 Kubernetes 集羣,顯然不止是啓動,還需要持續監控,以確保 Kubernetes 中的服務能正常運行。 不過,您不想整天盯着一堆 Kubernetes 儀表板(即便儀表板再多麼美觀)。您希望使用適當的警報來設置 Kubernetes 警報,對嗎
AlertManager 是一個開源警報系統,與 Prometheus 監控系統配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我們之前的文章中,我們研究了以下內容: 在 Kubernetes 上部署 Prometheus 部署 Kube State Metrics 在本指南中,我將介紹 Alertmanager 設置及其與 Prometheus 的集
在本指南中,我們將詳細瞭解Grafana Loki架構及其組件。 在公司的分佈式環境中,存儲和管理來自各種系統資源的日誌是一項具有挑戰性的任務。為了簡化這項任務,引入了一個稱為日誌聚合的概念,它從各種系統資源中收集、存儲、管理日誌。有各種各樣的日誌聚合工具,其中一個工具是 Grafana Loki,通過本文我們一起探索一下 Loki。 什麼是 Grafana Loki? Grafana Loki
本文會通過一個 Java 應用,演示 Prometheus JMX Exporter 在 Kubernetes 裏的部署和配置方式。為了更好地理解 JMX Exporter,我們將使用 Spring Boot Java 應用程序並將所有 JMX 指標導出給 Prometheus。在本指南結束時,您將學習: 使用 Java 應用鏡像啓動 JMX Exporter 將 JMX 指標導出給 Pro
在本指南中,我們將詳細瞭解 Prometheus 架構,以有效地理解、配置和利用 Prometheus。 Prometheus 是一個用 Golang 編寫的流行開源監控和警報系統,能夠收集和處理來自各種目標的指標。您還可以查詢、查看、分析指標並根據閾值收到警報。 此外,在當今世界,可觀察性對於每個組織都變得至關重要,而 Prometheus 是開源領域的關鍵觀測工具之一。 Prometheus
當談到併發時,許多編程語言都採用共享內存/狀態模型。然而,Go 通過實現 Communicating Sequential Processes(CSP)而與眾不同。在 CSP 中,程序由不共享狀態的並行處理器組成;相反,他們使用 Channel 來溝通和同步他們的行動。因此,對於有興趣採用 Go 的開發人員來説,理解 Channel 的工作原理變得至關重要。在本文中,我將使用地鼠經營他們想象中的咖