博客 / 詳情

返回

互聯網高可用架構探討 | 京東雲技術團隊

高可用指標與問題

高可用,英文單詞High Availability,縮寫HA,它是分佈式系統架構設計中一個重要的度量。業界通常用多個9來衡量系統的可用性,如下表:

既然有可用率,有一定會存在不可用的情況。系統宕機一般分為有計劃的和無計劃的,有計劃的如日常維護、系統升級等,無計劃的如設備故障、突發斷電等。我們對此作如下分類:

1.設備故障:機房斷電、硬盤損壞、交換機故障。

2.網絡故障:網絡帶寬擁堵、網絡連接中斷。

3.安全問題:利用系統漏洞進行網絡攻擊。

4.性能問題:CPU利用率太高、內存不足、磁盤IO過載、數據庫慢SQL。

5.升級維護:由於業務變更或技術改進而引起的系統升級。

6.系統問題:分佈式系統中存在服務的依賴而導致數據的不一致性,或是核心服務出現異常。

高可用主要手段

負載均衡

負載均衡(Load Balance),它將工作任務分發到多個工作單元上進行運行,它可以提高網絡設備的帶寬,提升網絡數據處理能力,增強網絡的穩定性。可防止機房斷電、網絡設備故障等問題。

負載均衡的實現可分為硬件負載與軟件負載。硬件負載由專門的設備完成專門的任務,這種方式性能較高同時成本也高;軟件負載通過軟件代碼實現,此種方式耗費操作系統資源,性能較低,容易出現BUG,也容易引起安全問題。

負載策略一般有輪詢策略、隨機策略、最小連接策略以及最短響應時間策略。

輪詢策略:講用户請求輪流分配給服務器,這種算法比較簡單。

隨機策略:隨機選擇一台服務器來執行任務。

最小連接策略:把請求分配給活動連接數最小的後端服務器。

最短響應時間策略:將請求分配給平均響應時間最短的服務器。

限流

限流就是避免服務過載,隨着流量的提高,無論負載策略如何高效,系統的某個環節總會過載。就如木桶能裝多少水取決於最短的那塊木板,我們是無法保證系統的每個部分都保持同樣的高吞吐量,因此要考慮如何優雅地提供有損服務。

常用的三種限流算法:計數器算法、滑動窗口算法、漏桶算法、令牌桶算法。

計數器算法:使用計數器在一定週期內累加某個接口的訪問次數,當達到限流閾值時,觸發限流策略,進入下一個週期後,重新開始計數。此算法較為簡單,但會降低服務器的負載能力。

滑動窗口算法:將時間週期劃分成更小的週期,按小週期來進行計數,根據時間滑動刪除過期的小週期。這種算法使得週期劃分得越小服務器的負載能力越高。

漏桶算法:將請求直接放入漏桶中,如果當前訪問量超出漏桶的限流值,則把後來的請求予以丟棄,這樣可以最大限度地提高服務器的負載能力。

令牌桶算法:以(時間週期/限流值)的速度向令牌桶裏增加令牌,直到裝滿桶的容量,當請求到達時,分配一個令牌讓其通過,如果沒有獲取到令牌則觸發限流機制。

 ### 異步調用

異步調用一般有兩種方式:一種是異步回調,一種是消息隊列。消息隊列方式也算是限流的一種手段,可以讓請求一個一個地被處理,避免併發太高而引起的應用無法及時處理。這種方式相對與限流來講,是一種無損的解決方案。但這種方案僅適用於非實時響應的業務。

 ### 超時重試與冪等設計

很多文章把超時重試與冪等設計分開來討論,但我卻認為它們是相輔相成,密切相關的。在設計超時重試時,一定要考慮冪等設計

超時重試機制:由於服務器宕機、網絡延時、服務器線程死鎖等原因,導致應用程序無法先限定時間內對服務調用方進行響應。因此當發生調用超時後,應用程序可根據調度策略進行重試。被調用的服務沒有及時響應,可能會存在兩種情況,一是服務內部發生異常,導致執行失敗,沒有返回任何消息;一是執行的服務耗時太長,沒有及時響應,但實際已經執行成功。所以針對第二種情況要做冪等設計。

冪等設計:多次相同參數的請求對系統造成的作業都是相同的。常見的冪等方案有:MCVV多版本併發、唯一索引、token機制、悲觀鎖、狀態機冪等、只讀操作等。

降級與熔斷

服務降級與服務熔斷都是為了解決服務雪崩的問題,但不要把他們混為一談,它們是有本質區別的。

降級是對系統的某個功能進行降級,可以只提供部分功能也可以完全停止該功能。降級一般由開關來進行控制,在不重啓服務的情況下,對功能進行降級。它常常發生在高併發時段、機器卡頓、下游不太重要的服務異常等情況下。

熔斷沒有開關,它是一個框架級的設計,常常被稱作斷路器。它的主要作用是,當下遊的服務因為某種原因變得不可用或服務不及時,為了保證整體服務的可用性,不再調用目標服務,直接返回默認處理或容錯處理,從而使得整體服務可以快速響應。例如SpringCloud中的Hystrix。

降級與熔斷的主要區別是手動與自動。降級主要是通過配置中心的熱刷新功能,人為地對開關進行打開與關閉操作。而熔斷則是根據事先設計好的策略,系統自動地根據策略來進行開關操作。但它們都是對功能進行關閉。

架構模式

主備模式

實際是一主多備,master負責提供讀寫服務,slave作為數據備份,一旦主機宕機,將其中一個備節點作為主節點。

主從複製

實際是一主多從,master對外提供讀寫服務,slave作為數據備份提供只讀服務。主機定期複製數據給從機。多副本的關鍵問題是保證數據一致性,通常需要考慮數據同步延時的問題。

集羣分片

集羣分片是為了解決每台機器上存儲全量數據的問題,面對大數據單機的存儲量總是有上限的,當面對PB級數據時,單機是無法支撐的,因此就需要對數據進行分片。

異地多活

異地就是指在地理位置上不同的地方,可分為同城異地、跨城異地、跨國異地,多活就是指不同地理位置上的系統都能夠提供服務。這種架構的複雜度較高,且部署成本也會提高。

設計原則:

1、 只把核心業務設計為異地多活,比如流量大、盈利高的業務

2、 保證核心數據的一致性與實時性,且可丟失、可恢復

3、 可採用多種數據同步的方案,比如存儲系統同步、消息隊列同步

4、 異地多活僅適用於大部分用户,以地區來論,覆蓋主要城區
 

總結

在互聯網架構設計中,高可用是必不可少的環節,要從網絡架構、服務架構、數據架構以及軟硬件架構等多方面來分析設計,是架構師必備的技能之一。

作者:京東零售 谷偉

來源:京東雲開發者社區

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.