10 分鐘搞定系統穩定性詳情 - 後端俞凡博客

系統穩定性是支持業務運營的基石，本文探討了構建穩定可靠系統的基本原理、挑戰和可操作策略。原文：Building System Stability: A Comprehensive Guide to Reducing Production Incidents

系統穩定性是支持各項業務運營的基石，沒有穩定性作為基礎，無論是最創新的功能還是敏捷的開發流程，在面對系統故障時也都毫無意義。這份全面指南探討了構建穩健、可靠系統的基本原理、挑戰和可操作策略，從而最大程度減少生產事故並最大化業務連續性。

理解系統穩定性

系統穩定性遠不止“保持系統運行”那麼簡單，而是代表系統在各種條件和壓力下維持一致的服務質量的根本能力。

學術定義

系統穩定性是指系統在指定邊界條件下維持其服務質量（QoS）的能力，包括在面對預期負載、異常輸入或部分組件故障時，仍能提供滿足服務水平協議（SLA）要求的服務。

雖然學術定義提供了理論基礎，但實際工程需要更具體、可衡量的標準。

工程實踐定義

從工程角度來看，系統穩定性體現在四個關鍵維度：

服務連續性：在硬件故障、網絡波動和流量高峯期間保持服務可用性。這超越了簡單的正常運行時間，涵蓋了優雅處理意外情況。
性能一致性：確保 P99 時延保持穩定，無劇烈波動。例如，保持 P99 響應時間在 500ms 以下，波動幅度小於 15%。
可預測性：系統行為應符合“墨菲定律”預期 —— 任何可能出錯的事情都會出錯，但系統具有預定的響應策略。
優雅降級：實現優雅降級功能，例如允許購物車功能獨立於推薦系統運行。

顯示關鍵系統指標的監控面板，包括服務器請求、CPU 和內存使用率、頁面加載時間、登錄次數以及隨時間波動的網絡流量

量化指標

服務等級協議（SLA，Service Level Agreement）：通常用可用性中的 9 來表示。4 個 9（99.99%）意味着系統每年的停機時間僅為 4.3 小時。
故障平均間隔時間（MTBF，Mean Time Between Failures）：總運行時間除以故障次數計算得出。該指標反映系統可靠性 —— 數值越高表示故障率越低，穩定性越強。
平均修復時間（MTTR，Mean Time To Recovery）：從故障發生到完全恢復所需的平均時間，包括問題診斷、解決、測試和生產驗證。數值越低表明恢復能力越強。

這些定義表明系統穩定性取決於兩個基本因素：系統風險概率和風險應對能力，這種關係可簡化為基礎公式：

穩定性 = 系統風險（概率）× 風險應對能力

構建系統穩定性的重要性

系統穩定性是所有其他業務努力之前的那個“1”，具有重要意義，沒有穩定性作為基礎，後續的創新和發展將完全失去價值。

直接經濟影響

系統穩定性差會導致直接且可量化的經濟損失。訂單處理失敗、支付系統錯誤和數據損壞事件會直接造成收入損失。

專業信譽

穩定性問題會影響到多個層面的信譽 —— 個人開發者、工程團隊以及整個組織。重大事故可能升級為公共關係危機，對企業品牌形象和市場聲譽造成長期負面影響。

開發效率

強大的系統穩定性能顯著提高整體迭代效率。當系統可靠運行時，工程團隊可以大大減少花在處理緊急情況上的時間，從而可以將更多資源投入到功能開發和業務推進中。

工作在更穩定系統上的團隊的生產效率更高、壓力水平更低、工作滿意度更好，從而形成積極的反饋循環，進一步提升系統質量。

技術債務對代碼質量的影響，以及如何影響產品交付、團隊狀態和業務成果

穩定性建設中的挑戰

儘管系統穩定性的重要性已得到普遍認可，但實施起來卻異常困難。"Bug 驅動開發"可以説明這一挑戰 —— 團隊往往只專注於業務功能交付，直到問題出現，然後才被動解決質量和流程問題。

資源投資平衡

在業務迭代與穩定性建設之間找到最佳平衡點始終是一項持續挑戰，會出現兩種極端情況：

穩定性投資不足：當穩定性獲得最少資源時，無法長期維持系統質量，快速的業務支持會累積潛在風險和隱藏問題，最終以 Bug 或事故的形式顯現。
過度關注穩定性：大量穩定性投入在短期內難以量化收益，業務相關方可能只會感受到迭代速度變慢，質疑為何不能更快進行開發和部署。

這造成了優先級和調度上的困難，業務團隊在壓力下自然會優先考慮功能交付，並將壓力傳遞給工程團隊。

穩定性建設的複雜性與風險

穩定性建設涉及識別、管理和預防風險 —— 每個組件都呈現出顯著的複雜性。

風險識別難度：主動識別風險需要全面審查整個系統範圍內的代碼和業務流程,隨着系統規模和交互複雜性的增加，工作量和複雜性會急劇上升。

風險管理挑戰：即使完成風險識別，實際整改仍面臨多重障礙：

為可能持續數月的整改工作分配資源
在整改過程中引入新問題的風險
處理包含累積技術債務的遺留系統時的執行復雜性

漸進式風險預防：新風險主要源於系統變更 —— 業務迭代和技術優化。需要確保開發、測試和產品團隊之間的一致理解、可控的變更流程以及可靠的人員執行。

雷達圖展示軟件技術債務和代碼質量指標在多個維度上的表現，質量等級從 A 到 G

全面穩定性建設策略

有效的穩定性建設需要系統化方法，涵蓋技術和管理兩個維度。策略基於穩定性公式，聚焦於三個核心方向：降低風險、提升響應能力和組織協同。

建立資源投入共識

在穩定性建設中，主要挑戰涉及資源分配。技術團隊必須首先就穩定性建設資源投入達成內部共識，通常以團隊總能力的百分比形式表示。

這個百分比會根據業務重要性、發展階段和當前風險評估而變化。團隊需要全面評估這些因素，以確定適當的穩定性建設優先級，並逐步調整投資比例。

許多業務發展團隊缺乏基礎共識 —— 在不相應的資源投入下期待穩定的系統，這會形成不切實際的期望。常見情況包括在保持嚴苛的發佈截止日期和質量要求的同時，為技術設計評審和代碼評審分配的時間不足。

資源投入共識必須超越技術團隊，擴展至業務利益相關者，在迭代速度和穩定性建設投入之間建立相互認可的平衡點。

明確穩定性目標

穩定性建設目標在不同開發階段有所不同，需要動態選擇指標。例如，3 級技術事故年度指標、生產問題月度指標，或直接是 4 個 9 的可用性目標。

明確的目標能夠分解為可實現的里程碑目標和實施方案。成功的穩定性建設最終取決於"人"和"流程" —— 人執行計劃，而流程提供安全保障和質量保證。

展示高、中、低嚴重性事件分類和處理步驟的事件響應計劃流程圖

培養穩定性意識

系統穩定性建設依賴於人的執行，人員意識對於實施難度和最終結果至關重要。這涵蓋三個關鍵領域：

認識：團隊成員必須充分理解系統穩定性的重要性。實際建議包括定期提醒、強調典型問題以及嚴肅的事故回顧，以逐步增強穩定性意識。
意願：團隊成員必須投入時間和精力去評估和解決穩定性風險（在資源得到充分分配的前提下）。風險評估需要對系統代碼和業務流程進行詳細分析，這需要耐心和注重細節。
能力：團隊成員必須識別風險並制定解決方案。當認知和意願一致時，通過知識共享、協作學習和專家諮詢成為個人能力發展的途徑。

實施全面開發標準

系統變更（業務迭代或技術優化）通常包括需求評審、技術設計評審、編碼和自測、測試用例評審、測試、代碼評審、驗收、部署和生產驗證。

嚴格的流程執行需要額外的時間投入。項目可能在不完全遵循流程的情況下成功，導致一些人低估流程標準並質疑效率效益。然而，開發流程標準為系統穩定性提供了基本保障。

事件響應與支持工作流程圖，展示了角色、決策點和從客户問題報告到開發補丁發佈的升級過程

技術設計評審

技術設計評審在兩個維度上運作：確保評審發生和維護評審質量。

強制技術設計評審：超過定義複雜度閾值（通常為 3 人天）的項目應包括技術設計和評審階段。小型項目需要根據複雜度和變更影響範圍進行評估。
聚焦評審優先級：技術評審應強調架構合理性、可擴展性，以及高性能、高可用性設計，而不僅僅是業務需求實現細節。
合格參與者：評審應包括熟悉受影響模塊和相關係統的相關人員，以更好的評估變更風險和影響範圍。
標準化審查清單：技術審查需要建立明確的關注點清單，以幫助參與者識別常見問題，包括接口限流、熔斷、降級、超時、重試、版本兼容性以及各種隔離策略。

卓越的代碼審查

代碼審查在開發過程中是關鍵性的穩定性保障。質量保證建議包括：

無評審，不部署：未評審的代碼絕不進入生產環境。這一原則源於無數生產事故，要求嚴格遵循，不容例外。
統一編碼規範：團隊需要一致的編碼風格標準，以顯著提高代碼審查效率和可維護性。
工具輔助審查：自動化工具擅長識別代碼的基本問題，如潛在的空指針異常。與部署平台集成可以在代碼質量問題解決之前防止沙盒部署。
關注高層級問題：代碼審查應強調整體風格、模式、性能和安全性，而不是陷入實現細節。
時間管理：個人評審會議不應超過 2 小時，以保持專注度和評審質量。
專業態度：評審旨在識別代碼風險和減少系統漏洞，而不是展示優越性或製造對抗。

生產部署標準化

部署是生產問題的高風險時期，因為涉及系統部署、數據更新、配置變更和中間狀態複雜化。成功的部署需要三種能力：監控、漸進式發佈和回滾。

全面監控：部署監控包括業務和技術指標 —— 訂單量波動、接口可用率、CPU 利用率、磁盤使用率、網絡性能和異常日誌。
漸進式發佈：漸進式部署限制了變更的影響範圍，將問題控制在可控邊界內。發佈可以按照技術維度（服務器、數據中心、區域）或業務維度（用户、商家、類別）進行。
快速回滾：通過功能開關或先前版本部署實現即時回滾能力，從而快速解決問題，以及針對被破壞的中間狀態進行數據回滾。

在軟件部署期間，可以採用金絲雀策略，將 90% 流量導向舊版本，10% 導向新版本

有效的監控和告警

業務報告問題是最慢的問題發現方法，在技術團隊意識到問題之前就已經對用户造成了影響。監控和告警系統能提供及時的風險檢測並最小化問題的影響範圍。

全面且精確的告警：核心業務關鍵點需要完整的監控覆蓋，無任何遺漏，包括技術和業務指標。然而，過多的告警會產生噪音，干擾真正重要的通知。
多工具集成：實踐中存在許多關鍵監控空白，導致系統處於未監控狀態，拖延了問題發現。團隊應利用多種監控工具，並針對特定業務需求開發定製監控解決方案。
精準業務監控：當平台工具無法滿足特定需求時，團隊必須開發定製化監控工具，用於業務特定數據的驗證和告警。

有效的監控結合了平台級別的系統監控（日誌、網絡、數據庫、線程池、接口響應率）與針對特定業務指標的定製化業務監控，並採用多種告警方式，包括郵件、企業消息和短信。

顯示關鍵系統指標的監控面板，包括服務器請求、CPU 和內存使用率、頁面加載時間、登錄次數以及隨時間波動的網絡流量

應急響應機制

生產問題通常源於三種來源：主動發現、業務反饋和監控告警。無論那種方法，團隊都需要建立響應機制以最小化影響和損失。

及時響應：立即關注並解決問題，同時適當重視生產問題。
保留問題上下文：保留問題現場證據以供後續調查和根因分析。
信息同步：向包括領導層、業務團隊和相關方在內的利益相關者傳達相關問題信息和進展更新。
影響範圍評估並緩解業務問題：與業務團隊合作評估影響，並在實際損失發生時優先恢復服務。常見恢復方法包括回滾、重啓、擴容、節點隔離和功能降級。
二次驗證：服務恢復後繼續監控技術和業務指標，以確認正常運行。

根因分析需要充分的知識基礎、有效的診斷工具（日誌平台、分佈式追蹤、監控系統、JVM 性能工具），以及基於特定場景的適當方法。

事件規劃和響應工作流程，展示了從初始情況評估到計劃執行和修訂的五階段模型

定期檢查與回顧分析

除了預防和應急響應，定期檢查系統能保持對穩定性的長期關注。諸如慢 SQL 查詢、偶爾的接口超時和未響應消息等問題需要仔細關注、持續監控和定期整改。

重大問題和嚴重事件需要進行徹底的回顧分析，以吸取教訓並防止類似事件再次發生。在無事件期間進行定期回顧分析有助於團隊回顧目標、評估結果、分析原因並總結經驗，用於知識庫建設和團隊學習。

實施成功因素

系統穩定性建設是長期、持續的過程，需要持續投入和系統性方法。成功取決於幾個關鍵因素：

基礎資源投資：有意義的穩定性提升需要技術和業務團隊在資源分配上達成共識。
平衡方法：避免引入新風險的激進變更。實施穩步、安全的螺旋式改進，強調學習和優化。
文化發展：通過培訓、共享經驗和積極強化以質量為導向的行為，培養團隊範圍內的穩定性意識。
流程演進：根據經驗教訓和行業最佳實踐，持續優化開發、部署和事件響應流程。
測量與反饋：建立明確的指標、定期評估週期和反饋機制，以跟蹤進展並指導改進。
跨職能協作：通過共享目標和溝通協議，確保開發、運營、測試和業務團隊之間的協調一致。

可持續穩定性文化

長期系統穩定性需要將穩定性原則融入組織文化和日常實踐中。這種文化轉型涉及：

共同責任：每位團隊成員都理解自己在維護系統穩定性中的角色，從初始設計到生產支持。
持續學習：定期舉行知識分享會、事件回顧和行業最佳實踐討論，以保持團隊的專業知識和意識。
主動心態：團隊預見潛在問題，而非僅僅對問題做出反應，投資於預防而非救火。
質量整合：穩定性考慮應無縫融入開發工作流程，而不是被視為獨立的可選活動。
業務合作：技術和業務團隊作為合作伙伴，共同平衡功能開發速度與系統可靠性，共同承擔結果的責任。

構建系統穩定性需要耐心、堅持和系統性的執行。雖然初始進展可能看起來緩慢，但持續應用這些原則和實踐最終會在系統可靠性、團隊生產力和業務成果方面帶來可衡量的改進。在全面構建穩定性方面的投資將通過事故頻率的降低、恢復時間的加快和增強對系統支持業務增長能力的信心而獲得回報。

Hi，我是俞凡，一名兼具技術深度與管理視野的技術管理者。曾就職於 Motorola，現任職於 Mavenir，多年帶領技術團隊，聚焦後端架構與雲原生，持續關注 AI 等前沿方向，也關注人的成長，篤信持續學習的力量。在這裏，我會分享技術實踐與思考。歡迎關注公眾號「DeepNoMind」，星標不迷路。也歡迎訪問獨立站 www.DeepNoMind.com，一起交流成長。

本文由mdnice多平台發佈

俞凡博客

俞凡博客

博客 / 詳情

10 分鐘搞定系統穩定性