SRETALK 博客

Nov 06 2025

SRETALK - 你唯一需要的是“Wide Events”，而非“Metrics、Logs、Traces”

Charity Majors 的這句話可能是對科技行業當前可觀察性狀態的最好總結——完全的、大規模的混亂。大家都很困惑。什麼是 trace？什麼是 span？一行日誌就是一個 span 嗎？如果我有日誌，我還需要 trace 嗎？如果我有很好的 metric，為什麼還需要 trace？諸如此類的問題不勝枚舉。Charity 與 Honeycomb 可觀測系統中的其他傑出人士一起，一直在努力解決這

運維 , trace , 日誌 , metrics

Nov 06 2025

SRETALK - 夜鶯監控支持 ES 日誌告警了

夜鶯項目（ https://github.com/ccfos/nightingale ）發佈了 v8.0.0-beta.3 版本，這個版本主要是支持了 ES 日誌告警，下面給大家介紹一下。新版本下載到如下地址下載發佈包： https://github.com/ccfos/nightingale/releases/tag/v8.0.0-beta.3 由於夜鶯 v8 版本默認配置使用 sql

監控 , 運維 , 日誌

Oct 14 2025

SRETALK - 夜鶯監控設計思考（一）整體定位、架構設計、單進程多進程選擇、高可用設計

這將是一個系列，講解夜鶯監控的設計思考，可以理解為原理+最佳實踐+產品設計時的折中取捨。整體定位瞭解一個開源項目，最應該瞭解的就是其定位，或者説它要解決的問題域。夜鶯的定位就是四個字：告警引擎。夜鶯對接多種數據源（比如 Prometheus、VictoriaMetrics、MySQL、ClickHouse、Postgres、ElasticSearch），根據用户配置的告警規則，判定併產生

監控 , 告警

Aug 18 2025

SRETALK - 可觀測性體系建設五步心法：明業務、立規範、採數據、顯特徵、獲洞見

筆者做監控 11 年，在可觀測性領域創業 4 年，與各類客户溝通較多，發現很多企業想要建設可觀測性體系，但是不得章法，我把整個建設過程做了一個簡單總結，梳理一下其中的脈絡，希望對你有所啓發。整個可觀測性體系建設，我總結為五個步驟：明業務立規範採數據顯特徵獲洞見下面挨個説明，可觀測性體系涉及到的內容太過駁雜龐大，本文更多是説明思路，不涉及實操。明業務首先，要把您的業務

監控 , 運維

Aug 13 2025

SRETALK - 監控系統如何選型：Zabbix vs Prometheus

經常收到網友提問，監控系統選型，到底應該選擇 Zabbix 還是 Prometheus？本文談一下個人看法，希望對你有所啓發。時代決定了基因 Zabbix 是 2001 年左右發佈的，那個時代，微服務和 Kubernetes 都不盛行，Zabbix 更多的是關注網絡設備、服務器、數據庫等傳統 IT 基礎設施的監控。Zabbix 的創始人是銀行運維出身，對於監控相關的各類零碎需求瞭解的非常透徹。

監控 , zabbix , prometheus , 告警

Aug 12 2025

SRETALK - 夜鶯開源監控，模板函數一覽

本文介紹夜鶯開源項目（Nightingale）的模板函數，夜鶯內置了很多模板函數，可以對告警事件做一些渲染調整，方便 On-call 人員根據告警事件處理告警。本文大綱：夜鶯開源項目簡介夜鶯模板函數用途場景夜鶯模板函數分類附加查詢函數格式化函數字符串處理函數時間處理函數數學運算函數數據處理函數夜鶯項目簡介夜鶯監控（Nightingale）是一款側重告

監控 , 告警

Jul 24 2025

SRETALK - 底層的告警，上層業務應該收嗎？

有朋友問：我是業務應用的 DEV 或 SRE，我的應用依賴了底層服務和基礎設施，比如依賴基礎網絡、Kubernetes、MySQL、收銀台服務，那這些基礎服務如果出問題，我應該收告警嗎？夜鶯裏有個訂閲規則，是不是就是為此設計的？本文講講筆者的個人理解，歡迎大家留言一起探討實踐經驗。首先，請大家看一下上一篇文章《CPU負載高，到底應不應該告警？》，其中提到一個點：只有 actionable 的告

監控 , 告警風暴 , 告警

Jun 11 2025

SRETALK - 開源夜鶯支持MySQL數據源，更方便做業務指標監控了

夜鶯監控項目最核心的定位，是做一個告警引擎，支持多種數據源的告警。這個版本的更新主要是增加了對 MySQL 數據源的支持，進一步增強了夜鶯在業務指標監控方面的能力。之前版本的夜鶯主要聚焦在 Prometheus、VictoriaMetrics、ElasticSearch 等傳統監控數據源上，從上個版本引入 ClickHouse 開始，夜鶯開始支持更多樣化的數據源，本次版本迭代則引入了 MySQL

MySQL , 監控 , 運維 , 開源 , sre

Jun 04 2025

SRETALK - 開源夜鶯V8.Beta11發版，支持CK告警、事件Pipeline等

這個版本來得遲了一些，主要是新功能加的多，下面簡單介紹一下新功能，下下週也計劃做一次直播講解。支持 ClickHouse 告警夜鶯最重要的定位是告警引擎，所以會持續增加各類數據源的告警支持，ClickHouse 之後還有 Doris、MySQL、Postgres 等。開源版主要是支持告警，不會支持看圖可視化，實在是做不過來，答疑也答疑不過來。引入事件 Pipeline 告警引擎根據告警規則

監控 , 運維 , 開源 , 開源監控軟件

Feb 24 2025

SRETALK - Prometheus 歷史峯值看不到了，這監控不準啊

經常在夜鶯社區收到用户反饋，説查詢某個監控指標，昨天的峯值是 xx，今天再次查詢，發現昨天的峯值看不到了，然後開始吐槽，你們這監控怎麼搞的，一點都不準啊。事實真的是這樣嗎？真實原因本質上這是因為 Prometheus 生態在查詢歷史數據時提供了一個 step 參數，大多數人對這個知識匱乏導致的疑問。上圖是 Prometheus 的官方文檔，其他的時序庫比如 VictoriaMetrics、

監控 , prometheus

Feb 17 2025

SRETALK - 夜鶯監控發佈 v8.beta5 版本，優化 UI，新增接口認證方式便於鑑權

以防讀者不瞭解夜鶯，開頭先做個介紹：夜鶯監控，英文名字 Nightingale，是一款側重告警的監控類開源項目。類似 Grafana 的數據源集成方式，夜鶯也是對接多種既有的數據源，不過 Grafana 側重在可視化，夜鶯是側重在告警引擎。比如把 Prometheus、VictoriaMetrics、ElasticSearch 等作為數據源接入夜鶯，即可在夜鶯裏配置告警規則做指標、日誌的告警。當

運維自動化 , 監控 , prometheus , 開源監控軟件

Jan 20 2025

SRETALK - Grafana 統一可視化了，告警如何統一？

對於大部分公司，通常都不止一套監控、可觀測性相關的系統，雲上的、雲下的，開源的、商業的，指標的、日誌的、鏈路的，各個系統體驗不同，權限難管，如何統一化併為各個團隊賦能，是很多技術負責人極為頭疼的問題。要完全推翻現有的體系也不現實，畢竟遷移成本很高，而且誰能保證那些所謂的 all-in-one 的系統一定能在各方面勝出現有的平台？利舊的同時，把體驗和價值提升，或許是個路子。 Grafana 其實

grafana , 監控 , prometheus , 告警風暴 , 告警

Nov 07 2024

SRETALK - Zabbix 和 Prometheus 選型對比

開源的監控產品有很多，其中最知名的，當屬早期的 Zabbix 和現在的 Prometheus。Zabbix 是 2001 年發佈的，至今已經 20 多年，很多細節打磨的相當到位，Prometheus 是 2014 年發佈的，相對年輕，依託於之前 Google Borgmon 的先進經驗和靈感，Prometheus 在雲原生監控領域有着非常好的表現。咦？你怎麼沒有提到你們自己開源的 Nighti

zabbix , prometheus

Oct 28 2024

SRETALK - VictoriaMetrics 中文教程（10）集羣版簡介

VictoriaMetrics 中文教程系列文章： VictoriaMetrics 中文教程（01）簡介 VictoriaMetrics 中文教程（02）安裝 VictoriaMetrics 中文教程（03）如何配置 Prometheus 使其把數據遠程寫入 VictoriaMetrics VictoriaMetrics 中文教程（04）對接 Grafana 同時介紹 vmui Vi

prometheus

Aug 29 2024

SRETALK - Prometheus 告警恢復時，怎麼獲取恢復時的值？

Prometheus 告警事件中的 $value 表示當前告警觸發時的值，但是在告警恢復時，Resolved 事件中的 $value 仍然是最新告警時的值，並非是恢復時的值，這是什麼原因和原理？是否有辦法來解決呢？不廢話，先説原理。原理告警規則是配置在 prometheus.yaml 中的，由 Prometheus 負責做規則判定。Prometheus 規則判定的邏輯也很簡單，就是週期性的，

prometheus

Aug 13 2024

SRETALK - Kubernetes 中必備的 10 個告警處置方法

本文翻譯自：https://sematext.com/blog/top-10-must-have-alerts-for-kuberne... 運行 Kubernetes 集羣，顯然不止是啓動，還需要持續監控，以確保 Kubernetes 中的服務能正常運行。不過，您不想整天盯着一堆 Kubernetes 儀表板（即便儀表板再多麼美觀）。您希望使用適當的警報來設置 Kubernetes 警報，對嗎

kubernetes , prometheus

Aug 06 2024

SRETALK - 在 Kubernetes 中部署 Alertmanager

AlertManager 是一個開源警報系統，與 Prometheus 監控系統配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我們之前的文章中，我們研究了以下內容：在 Kubernetes 上部署 Prometheus 部署 Kube State Metrics 在本指南中，我將介紹 Alertmanager 設置及其與 Prometheus 的集

kubernetes , prometheus , 開源監控軟件

Aug 01 2024

SRETALK - Grafana Loki 架構詳解，比 ES 成本低很多

在本指南中，我們將詳細瞭解Grafana Loki架構及其組件。在公司的分佈式環境中，存儲和管理來自各種系統資源的日誌是一項具有挑戰性的任務。為了簡化這項任務，引入了一個稱為日誌聚合的概念，它從各種系統資源中收集、存儲、管理日誌。有各種各樣的日誌聚合工具，其中一個工具是 Grafana Loki，通過本文我們一起探索一下 Loki。什麼是 Grafana Loki？ Grafana Loki

grafana , loki , elasticsearch , elk

Jul 31 2024

SRETALK - 在 Kubernetes 裏部署 JMX Exporter 監控 Java 應用

本文會通過一個 Java 應用，演示 Prometheus JMX Exporter 在 Kubernetes 裏的部署和配置方式。為了更好地理解 JMX Exporter，我們將使用 Spring Boot Java 應用程序並將所有 JMX 指標導出給 Prometheus。在本指南結束時，您將學習：使用 Java 應用鏡像啓動 JMX Exporter 將 JMX 指標導出給 Pro

jmx , kubernetes , prometheus

Jul 22 2024

SRETALK - 7 張圖，徹底講透 Prometheus 架構原理

在本指南中，我們將詳細瞭解 Prometheus 架構，以有效地理解、配置和利用 Prometheus。 Prometheus 是一個用 Golang 編寫的流行開源監控和警報系統，能夠收集和處理來自各種目標的指標。您還可以查詢、查看、分析指標並根據閾值收到警報。此外，在當今世界，可觀察性對於每個組織都變得至關重要，而 Prometheus 是開源領域的關鍵觀測工具之一。 Prometheus

prometheus

Jan 30 2024

SRETALK - 漫畫圖解 Go 併發編程之：Channel

當談到併發時，許多編程語言都採用共享內存/狀態模型。然而，Go 通過實現 Communicating Sequential Processes（CSP）而與眾不同。在 CSP 中，程序由不共享狀態的並行處理器組成；相反，他們使用 Channel 來溝通和同步他們的行動。因此，對於有興趣採用 Go 的開發人員來説，理解 Channel 的工作原理變得至關重要。在本文中，我將使用地鼠經營他們想象中的咖

channel , go

SRETALK 博客

博客 / 列表

SRETALK - 你唯一需要的是“Wide Events”，而非“Metrics、Logs、Traces”

SRETALK - 夜鶯監控支持 ES 日誌告警了

SRETALK - 夜鶯監控設計思考（一）整體定位、架構設計、單進程多進程選擇、高可用設計

SRETALK - 可觀測性體系建設五步心法：明業務、立規範、採數據、顯特徵、獲洞見

SRETALK - 監控系統如何選型：Zabbix vs Prometheus

SRETALK - 夜鶯開源監控，模板函數一覽

SRETALK - 底層的告警，上層業務應該收嗎？

SRETALK - 開源夜鶯支持MySQL數據源，更方便做業務指標監控了

SRETALK - 開源夜鶯V8.Beta11發版，支持CK告警、事件Pipeline等

SRETALK - Prometheus 歷史峯值看不到了，這監控不準啊

SRETALK - 夜鶯監控發佈 v8.beta5 版本，優化 UI，新增接口認證方式便於鑑權

SRETALK - Grafana 統一可視化了，告警如何統一？

SRETALK - Zabbix 和 Prometheus 選型對比

SRETALK - VictoriaMetrics 中文教程（10）集羣版簡介

SRETALK - Prometheus 告警恢復時，怎麼獲取恢復時的值？

SRETALK - Kubernetes 中必備的 10 個告警處置方法

SRETALK - 在 Kubernetes 中部署 Alertmanager

SRETALK - Grafana Loki 架構詳解，比 ES 成本低很多

SRETALK - 在 Kubernetes 裏部署 JMX Exporter 監控 Java 應用

SRETALK - 7 張圖，徹底講透 Prometheus 架構原理

SRETALK - 漫畫圖解 Go 併發編程之：Channel

Product

Company

Support

Company