同城雙活：交易鏈路的穩定性與可靠性探索詳情 - java,後端,中間件得物技術動態日志

知易行難，雙活過程中遇到了非常多的問題，但是回過頭看很難完美的表述出來，之所以這麼久才行文也是這個原因，總是希望可以儘可能的復現當時的思考、問題細節及解決方案，但是寫出來才發現能給出的都是多次打磨、摸索之後的我們認為偏合理的方案；不過換個角度看，給大家展示出來一個正確答案，是否有更積極的參考價值呢？

以及，涉及到容器、發佈平台、底層網絡運維、監控等組件的內容，限於視野及技術能力並未包含在內，僅聚焦在業務團隊及中間件組件的設計及改造上。

背景

2022年，基於對穩定性的焦慮...和思考，交易平台聯動中間件平台啓動過異地多活項目的探索，雖然完成了核心應用及基礎組件的改造，但在疫情&降本增效的影響下並未真正投產，同時也缺乏充分的測試以及線上流量的大規模驗證；後續在不斷的業務迭代中，相關設計及代碼被衝擊的面目全非，相關的多活自動化測試case也並沒有沉澱下來。

隨着近期外部友商時有嚴重故障出現，比如

以上林林總總出現的故障都給我們敲響了警鐘，必須建設快速恢復的能力。出現問題幾乎不可避免，但如果能控制影響範圍、縮短影響時間，也就能把損失降到最低。

我經歷過的公司，做交易的和做中間件的往往是最容易焦慮也最容易心態失衡的兩撥技術人；一方面所有問題都會暴露在C端用户面前，影響範圍大且不像toB/toM的場景避開高峯期甚至有可能無人知曉；另一方面流量高，壓力大，容易面臨突發流量及突發事件，穩定性這根弦需要始終繃緊；所以往往是面向穩定性(的焦慮)設計，當然熬過去成長也最快。

回到我們的現狀，得物目前的交易應用及中間件基礎組件都是基於某雲部署，且前期為了降低跨機房調用產生的網絡損耗，較多應用都綁定了存儲組件(db/redis/hbase)及核心依賴下游的所在可用區，對此，為了避免在極端情況下，得物的交易主鏈路出現長時間不可用的情況，團隊決定提前預防，啓動同城雙活項目。

為了避免在極端情況下，得物的交易主鏈路出現長時間不可用的情況，團隊決定啓動同城雙活項目，目標是快速建設流量動態切換能力及快速恢復能力，同時降低改造難度、減少改造工作量，不增加大量額外成本。團隊討論決策繞過之前最複雜也最容易出問題的數據同步(db雙向同步、redis雙向同步等)，同時也不需要在流量切換時做db禁寫，整體具有比較大的可操作可實施性。

多説一句，同城雙活也有做數據雙向同步的case，當然更徹底--每個機房都有全量的數據及應用，某個機房出問題可以完全自閉環承接流量，不過帶來的複雜度上升、成本上升也會比較明顯，所以這次並沒有選擇這條路。換句話説，個人更傾向於小成本低風險快速落地，實現從0到1的功能建設，而不是大而全的方案，萬一期間遇到問題只能徒呼奈何。當然在現階段，通過建設相對低風險低投入的同城雙活，積累更多基礎能力的同時鍛鍊團隊，選擇最合適當下的方案，解決目前排在第一位的問題，怎麼想都覺得還是一件挺划算的事兒。

畫一幅簡圖來區分下我們這次同城雙活的方案和業界異地雙活方案的差異。

異地雙活

主要特點：

存儲相關有兩份，雙機房內各自讀寫，雙向同步
數據的循環賦值需要重點考慮如何處理
數據間的同步延遲問題會比較明顯，不過各自機房內基本上可自閉環調用
對於用户、商家資產的處理比較複雜，比如用户券、賣家庫存等，一般需要考慮在某個機房維護(gzone)，避免數據同步問題帶來的超賣、超用
切流時需要做目標機房的局部數據禁寫，避免髒數據產生

同城雙活

特點：

只有一份數據源，不需要考慮數據同步的延遲問題及切流時的禁寫邏輯，不過若數據所在機房出問題，另一個機房無法正常承接流量(只能承接部分兜底流量，如cdn、緩存等有兜底數據的場景)
不需要考慮具備中心節點性質的數據問題，如用户券、庫存等
跨機房訪問較多，尤其是數據層面的讀寫，可能會造成RT的大幅上漲

不管是同城還是異地、雙活還是多活(雙活只是多活裏最簡單的場景，雙活到三活難度飆升範圍應該不亞於<羊了個羊>裏第一關和第二關的難度)，都是為了以下目標：

提高可靠性：通過在不同的物理位置部署服務，減少單點故障的風險。即使一個機房發生故障，其他機房也可以接管服務，確保業務連續性。
負載均衡：可以靈活分配用户請求流量，避免單個機房過載，尤其隨着業務規模的擴大單個雲廠商的機房已經無力提供更多資源的情況下。
災難恢復：通過流量的調度切換來快速恢復某個機房的故障問題，減少業務中斷時間。
雲成本：在技術成熟度較高的前提下，做同雲、跨雲甚至雲+自建IDC機房之間的多活，一方面可以降低對某個雲廠商的依賴從而獲取一定的議價權；另一方面多活本身在提高資源利用率方面可以有更多可能性。
提高服務質量：這點尤其表現在異地多活場景，通過在多箇中心之間分配流量，可以減少網絡延遲，提供更快的響應時間和更高的服務質量。

設計思路

一句話描述：在雲機房的多個可用區(即多個物理機房)中構造應用層面的雙集羣部署，配合目前已經在交易鏈路大規模上線的藍綠髮布，完成流量的動態切換(含HTTP、RPC、DMQ[rocketmq/kafka])。而存儲(redis/db)還是在單機房(但是可以跨機房部署)，降低方案及實現的複雜度。

雙活整體架構

可以看到，整體在架構層面分為四層：

接入層： DNS 域名解析+ SLB主備 + DLB（自研流量網關)+DAG(自研業務網關) 多機房部署，保障接入層高可用。其中在DAG中實現了根據用户ID、流量比例等控制藍綠流量的策略。
應用層： 應用通過改造，劃分為邏輯藍綠集羣，通過藍綠同調的粘性屏蔽跨區調用。
中間件層： 多箇中間件組件有各自不同的跨AZ部署策略、數據同步、主動切換策略，下面會詳述。
數據層： 數據層保持一份數據，通過自動/手動主從切換，跨區部署等技術手段，保障機房級別故障下服務可用，包含DB、Redis、Hbase等。

具體改造方案

本次雙活涉及到三個主要部分，分別是：交易應用側雙活改造、交易依賴方應用雙活改造、中間件&基礎組件改造。下面分別介紹：

交易應用側雙活改造

項目範圍\
交易側默認所有服務均參與同城雙活改造，一方面內部應用之間的調用關係複雜，區分處理梳理工作量極高；另一方面快速的業務迭代也會改變互相之間的依賴關係，維護這套邏輯成本太高；以及，內部強弱依賴本身也在動態變化，讓團隊的同學不斷的識別哪些應該雙活、哪些應該單點，溝通和執行成本反而更高。
業務改造思路及方案\
實際業務場景中複雜的鏈路拓撲最終可以抽象為如下典型的、原子的鏈路拓撲(A-B-C)的疊加、組合。

A、C服務參與雙活，需要跨可用區部署。B服務不參與雙活，不需要跨可用區部署。

A、B、C服務都需要識別流量染色、服從流量調度。

相關服務Owner各自將服務中集成的統一基礎框架升級到指定版本，接入無侵入、零配置、開箱即用的藍綠髮布能力組件全家桶。保證基於藍綠髮布的運行時流量調度能力被完整集成。上述簡圖中A、B、C服務需要進行該步驟。
相關服務Owner各自在發佈平台界面白屏化遷移發佈模式。發佈模式遷移到藍綠髮布時，發佈平台自動將服務Pod進行跨可用區部署，並在Pod中注入支撐流量調度的進程級元信息。藍綠髮布能力組件在上游調用方LoadBalance時介入進行流量染色、流量調度。上述簡圖中A、C服務需要進行該步驟。

完成上述改造後，雙活鏈路上的流量呈現就近調用、可用區封閉的特點，即：流量染色後，後續鏈路上的每一跳調用都會優先向下游服務集羣中與流量同色(同可用區)的實例發起調用。

交易依賴方應用雙活改造

僅僅依靠交易側應用，無法完成所有的P0鏈路，如下單時依賴供應鏈側時效。強依賴的外域服務同樣納入了同城雙活改造範圍。其改造點基本一致，不再贅述。

中間件&基礎組件

識別機器資源可用區

項目初期。我們發現容器POD和ECS缺少可用區標識，導致無法區分對應的資源歸屬。於是我們配合運維組和監控組的同事制定了一份規範。在環境變量裏給機器都打上對應的標記，同時這也是監控和日誌能透出機房標記的基石。

中間件RTO

同城雙活要求中間件在單個可用區出問題的時候，仍能對外提供服務。其設計目標的RTO為以下：

主要組件雙活改造方案

DLB - 自研流量網關

DLB是無狀態組件，在兩個可用區對等部署。

當其中一個可用區故障時，在SLB的endpoints上故障節點會被剔除，流量會打到正常的節點，實現故障快速恢復的目標。預計秒級完成。

彩虹橋 - 自研分佈式關係數據庫代理

彩虹橋目前不具備自動流量切換能力，一方面自動切換過於複雜，另一方面也容易帶來更多的風險，以及也依賴DB層面的主備切換，所以走手動切換，預計分鐘級完成。

目前流量99%走A區集羣、1%的流量走B區集羣，當A區發生可用區故障時，可手動把流量全部調度至B區集羣，同時需要DB層完成主備切換(a->b)。

DMQ

通過Broker分片級別打散到不同的可用區形成一套完整的集羣。

當可用區故障時，集羣可用分片會減少一半，集羣整體可用。

DMQ的改造經過了多次試錯，最開始通過在消費端創建多個consumer group的方式實現，但需要業務側配合多次升級處理，且會導致消費端存在雙倍的consumer group，後面才決定將主要改造工作放在rocketmq broker內部。簡要介紹如下：

藍綠屬性

BROKER中的隊列設定成偶數，並且>=2. 我們把前一半隊列視為邏輯上的藍色隊列，後一半隊列視為綠色隊列(這裏也可以看到，雙活裏的很多處理邏輯都是非此即彼，但是如果到多活，複雜度就會更高)。
生產者

在進行隊列選擇時，根據集羣環境藍綠顏色進行分組選擇

a) 藍集羣的消息會被投遞的broker的前一半隊列中

b) 綠集羣的消息會被投遞到broker的後一半隊列中

在每種選擇邏輯內部是按照輪循的方式進行選擇，不破壞生產者本身支持的容錯邏輯。
消費者

消費者也是類似。藍色消費者消費藍色隊列的消息。綠色消費者消費綠色隊列的消息。

Kafka

由於ZK的ZAB協議要求保證 Math.floor(n/2)+1 奇數個節點存活才能選出主節點，所以 ZK 需要進行3個可用區部署，上面的nameserver類似。分散在3個可用區中，A:B:C 節點數 = 2N:2N:1，確保始終是奇數個集羣節點。

Broker 在兩個可用區對等部署，分區的主從跨區部署。當單個可用區故障時，分區leader切換。

ES

ES多可用區部署，需要區分數據節點和master節點。

數據節點：需要保持各個可用區之間節點對等，以保證數據的平衡；使用分區感應把主副分片隔開，保持在不同可用區內。
master節點：部署在至少三個可用區，以保證任何一個可用區掛了，都不影響master的選舉。

註冊中心

自研分佈式註冊中心，基於raft協議實現系統可用性、數據一致性。承擔得物全站RPC服務發佈/訂閲職責。

代理節點多分區部署，保障多可用區雙活
Sylas集羣Raft節點3個分區部署，保障多可用區雙活

流量分配策略

RPC流量

雙活的RPC的入口流量在DAG上進行調整，DAG會盡量根據用户ID進行流量分配。

1. 每個應用會在請求上下文中附上當前的藍綠標識

2. 如果某個應用沒有納入雙活範疇，這裏的藍綠標識會丟失，此時有兩種策略：

a. 隨機分配，不過會破壞鏈路的純潔性；

b. 根據userID再算一次，不過需要增加一次對ark配置的處理。

MQ流量比例

因為藍綠集羣的生產者和消費者對隊列進行了綁定。所以只要調整藍綠生產者的消息比例就可以調整整個MQ的消費流量比例。而藍綠生產者的消息比例一般由RPC流量決定。所以調整RPC的流量比例，MQ的流量比例也會得到相應的調整。不過會有一定的滯後(5-10s)。

上線環節

前期準備階段：

整體思路確定：
- 基於當前的藍綠髮布做雙活，每次的藍綠髮布過程就是一次雙活切流演練，避免長久不使用，需要用的時候手忙腳亂或者年久失修。
- 服務層做雙活部署，數據層不做大的改造，DB和Redis通過自身的主從切換實現高可用，從節點分佈在不同的可用區
- 交易域內所有服務+核心鏈路相關外域服務做雙活改造
梳理所有業務場景、MQ情況、容器部署現狀、數據庫&緩存主從節點可用區現狀：
- 交易域所有服務&以及核心業務場景強依賴的外部服務、強依賴的具體業務場景、可否降級&有無兜底
- MQ使用情況：DMQ還是Kafka還是其他、是否需要保證消息的順序性
- 所有服務當前機器所在可用區、是否綁定固定可用區
- 交易域所有數據庫、Redis對應的主節點和從節點分別所在可用區情況
- 依賴zookeeper的job情況
評估改動範圍：
- 上下游非交易域溝通確認（必須納入改造範圍的服務、可以不用雙活改造的服務必須要有兜底）
- 雙活涉及到的服務jar升級、未接入藍綠髮布的接入藍綠髮布
- 跨區調用情況下RT上漲明顯的接口針對性優化
部分業務場景是否需要接入自建Redis的就近讀改造
- 運維側提供自建Redis的就近讀方案，但是對於數據一致性方面有所犧牲，各方根據實際業務場景和接口RT情況綜合評估是否需要接入

開發&驗證階段：

服務jar升級：支持雙活藍綠切流、支持MQ藍綠髮送&消費
雙活藍綠染色測試環境搭建、測試流程改善
- 環境本身的搭建：服務藍綠集羣拆分、綁定可用區、容器藍綠集羣機器比例配置
- 雙活藍綠染色環境代碼版本校驗、代碼准入規則、分支自動合併規則、測試流程流轉等
- 將雙活藍綠染色環境定為測試二輪round2環境，在日常迭代中常態化迴歸驗證雙活流程
雙活藍綠染色測試環境迴歸
- 正常業務流程迴歸
- 測試環境藍綠切流回歸
- 測試環境MQ生產&消費切流回歸
- 核心業務接口RT情況記錄對比、優化意見
雙活染色環境全局通道打開情況下藍綠髮布通道切流回歸
- 驗證通道優先級：發佈通道優先級 > 全局通道
預發環境集羣拆藍綠
- 此刻預發環境等於已經實際上完成了雙活改造
預發環境驗證&RT問題重點關注
線上所有雙活改造服務單獨拆一台機器到B區觀察&驗證RT上漲問題
- 交易平台絕大部分服務之前都是綁定可用區A區，每個服務單獨部署一台機器到B區，觀察接口RT情況
DMQ升級藍綠2.0支持按照藍綠標消費

線上準備&上線階段：

日誌平台、監控平台、trace鏈路、容器升級支持藍綠標
生產環境DMQ切換為藍綠2.0支持按照雙活藍綠標消費
數據庫&Redis主節點切換，保證主從節點只在A區或者B區
- 大部分在在a、b這兩個區，也有例外。核心是主節點一定要在這兩個區
線上服務拆分藍綠集羣（手動），項目正式上線，迴歸驗證&RT問題關注
綠集羣（A區）擴容至100%機器，藍集羣（B區）維持50%機器，灰度觀察5天
線上RT上漲接口技術專項優化
發佈平台雙活保障迭代升級
- 支持新增服務一鍵加入雙活藍綠集羣
- 雙活藍綠集羣支持按區批量擴容能力（單機房故障情況下，快速拉起存活區的服務）
容器平台支持容器管控多可用區部署

項目成果

2023年12月14日，籌備近100天的交易鏈路同城雙活完成上線，經過5天(12.14-12.18)的觀察及聖誕前高流量(DLB流量達到雙十一的77.8%)的驗證，確認無明顯異常，之後線上集羣完成縮容。部分場景的RT有一定比例的上漲(數據層面只做了跨可用區容災，但是並沒有實現就近訪問，所以藍集羣的所有數據層面調用都需要跨可用區)，已啓動技術小項目推動優化中。

從實際效果上看，經過12.22的大版本發佈過程中的跨機房切流，交易鏈路已經具備跨機房流量調度的能力，如下：

流量表現

（A區 - 綠集羣，B區 - 藍集羣)

兩個可用區的集羣流量達到了50:50。不過rocketmq 由於存在少量上下游應用並未進行多活改造，還有較小流量未嚴格分佈
核心指標 qps/rt/錯誤率
核心基礎組件訪問情況
由於所有數據存儲(db、redis、hbase)均在 A 區，故 B 區的 rt 有一定上漲，整體看上浮大概 7-8ms( 存在一次請求查詢多次數據的場景)，還在持續推動優化

成本情況

因A區原有云資源均為包年包月模式，停止使用依然會有費用產生；同時在B區部署服務穩定性支撐50%流量之前，存在5天的並行期（A區100%資源、B區50%資源，共150%），期間共產少量成本。

灰度並行期結束後，A區資源釋放掉50%，整體成本回歸原有平均線，無額外成本產生。

帶來的新問題及後續

藍綠髮布中，如果下游接入了雙活但沒有進入發佈通道，消費流量會傾斜，比如在上游切換流量過程中，RPC或MQ會優先本可用區調用，也就是另一個可用區流量比例會受影響；需要關注每個可用區中冗餘的容量評估是否可以支撐全量流量。
RT變化，對於下游未加入雙活、或者某些存儲/緩存中間件，如DB/Hbase/Redis未開啓就近讀取，B機房的RT會普遍高5-8ms。已在逐步投入優化。
容器管控作為基礎設施，在出現機房級故障的時候需要保證正常運行，能夠順利完成擴縮容操作，即容器管控面的多可用區部署，這塊目前還在建設中。
機房級故障情況下，單機房批量擴容快速拉起，是否有足夠的可用資源（尤其是大促期間，雲廠商本身資源就吃緊）。
多個大域之間的雙活聯動問題，比如交易和搜推
- 兩個大域雙活切流是否需要聯動（聯動：影響範圍被放大，且搜推側擴容不易；不聯動：各域雙活流量非常割裂）
- 兩個大域之間的是否識別相同的藍綠標（各大域內部自閉環保證同區訪問or大域之間也需要保證）
如何在線上無損情況下進行一次貼近實際的演練。

以上問題都是在雙活之後帶來的新挑戰，也都在不斷的思考及投入解決。

不管做什麼，不管怎麼做，人生總會有新的問題出現，不是麼？Keep a long-term view lol...

*文/Alan 英傑 Matt 羊羽

本文屬得物技術原創，更多精彩文章請看：得物技術官網

未經得物技術許可嚴禁轉載，否則依法追究法律責任！