隨着業務全球化擴展與數字化運營的深入推進,日誌系統的規模和複雜度不斷攀升,原有基於 OpenSearch 的日誌平台逐漸難以滿足成本控制、性能保障和可維護性等多維需求。為應對持續增長的數據壓力和更靈活的分析場景,領創集團技術團隊啓動了日誌系統的架構升級實踐,並最終選擇 Apache Doris 作為新一代日誌系統的核心。實現了綜合成本下降超 45%、查詢性能提升 5 倍、日誌寫入達到準實時以及靈活的運維策略等一系列顯著收益。
一、業務背景
領創集團(Advance Intelligence Group)成立於 2016 年,是 AI 技術驅動的科技獨角獸企業,致力於建立以 AI 為核心的金融+數據平台,讓每個人都能更輕鬆、公平地獲得優質的金融產品與服務。
集團總部位於新加坡,集團旗下擁有兩大業務線,ADVANCE.AI 是全球領先的人工智能與金融科技企業,提供數字身份驗證、KYC/KYB、合規、風險管理和信用信息等服務。目前,已與銀行、金融服務、金融科技、跨境支付、交易平台、零售和電商等行業客户建立了合作伙伴關係,服務遍佈六大洲;Atome Financial 是東南亞領先的數字金融平台,為消費者搭建多產品的數字金融服務,實現普惠金融,目前已服務超過 5300 萬消費者,累計 GMV 超過 80 億美元。
集團發展至今擁有超過 1400 名員工,業務遍及六大洲的 80 個國家,已完成 D 輪融資。
二、早期架構及痛點
隨着公司業務規模的迅猛擴張,系統日誌的生成量呈指數級增長,原有基於 OpenSearch 的日誌分析平台逐漸暴露出一系列結構性瓶頸,難以支撐日益複雜和高頻的日誌處理需求,具體體現在以下幾個方面:
- 成本飆升快:隨着日誌量持續增長,計算和存儲壓力顯著增加,服務器資源消耗、對象存儲開銷以及節點本地存儲需求疊加,導致整體數據成本居高不下。
- 查詢性能慢:在高併發、複雜多維度查詢場景下,OpenSearch 的響應速度明顯下降,嚴重影響業務的實時性與運營效率。
- 運維複雜度高:每次系統擴容不僅帶來更多的資源消耗,還進一步加劇了運維的複雜性,提升了維護成本和風險。
在此背景下,我們啓動了日誌系統重構項目,目標是在降低總體擁有成本的同時,保證日誌系統的高可用性、實時性和查詢性能。
三、選型與對比
在技術選型階段,我們評估了多種日誌系統解決方案,包括 ClickHouse、Doris、StarRocks 等。經過技術評估與實際測試,最終選擇 Doris 作為新一代日誌分析平台的核心組件,主要基於 Doris 的高效的列式壓縮、準實時寫入、靈活的擴縮容機制、強大的查詢能力、兼容性好、運維成本低等關鍵優勢。
以下是我們在 OpenSearch 與 Doris 之間進行全面技術對比的核心結論:
四、遷移實施步驟
日誌系統的遷移不僅涉及數據和服務遷移,還需要對查詢方式和運維流程進行調整。
我們整體分為以下步驟:
- 數據模型設計與映射 :將原有 JSON 日誌結構化,設計對應 Doris 表結構,並結合日誌種類進行規範化建模(例如:msg、logger、level 等)。
- 日誌採集通道改造 :原使用 Kafka → Logstash → OpenSearch 採集鏈路,我們替換為 Kafka → Logstash → Doris Stream Load,實現高吞吐、低延遲的數據寫入。
- 查詢語句替換 :將原 Kibana 上的 DSL 查詢語句轉換為 SQL 語句,並結合 Doris 的分區裁剪、列裁剪、謂詞下推等機制優化執行計劃。
- 系統壓測與灰度切換 :在測試環境對比查詢性能與寫入壓力,驗證穩定性後,分階段遷移各日誌模塊,最終實現全量替換。
五、成本優化效果
遷移前後在節點規模、對象存儲和查詢性能方面均實現顯著優化:
此外,Doris 支持靈活的彈性擴縮容,並具備高效的數據壓縮機制。即便未來日誌數據量持續增長,也能顯著降低存儲與運維成本。
六、日誌系統遷移挑戰與經驗分享
01 查詢語義轉換
OpenSearch 支持 DSL 語法和全文搜索,Doris 目前只支持 SQL 語法。
解決方案:與業務團隊協作,將現有的 DSL 查詢統一修改為 SQL 查詢。
02 Doris 查詢 UI 缺少日誌分析視圖
相較於 OpenSearch + Dashboards 的成熟可視化,Doris 原生缺少日誌分析視圖。
解決方案:內部開發了日誌查詢頁面替代 Kibana 查詢頁面。
社區目前對 Kibana 的支持:
考慮到用户對 Kibana 的強依賴,社區經評估後推出了 es2doris 工具。該工具實現了從 Elasticsearch 的 DSL 到 Doris SQL 的自動轉換,使得原本調用 Elasticsearch 接口的應用程序(如 Kibana)無需任何改動,即可通過 es2doris 間接訪問 Doris。用户可直接將現有的 Kibana 連接至 es2doris 服務,無縫延續使用體驗。
03 擴容期間負載傾斜
Doris 擴容時會涉及 Tablet Schedule 和 Balance,若節點過少或數據不均可能短時導致查詢卡頓。
解決方案:在進行擴容時候,需要結合當前的機器負載情況,提前進行資源預估,如果機器負載比較高,在進行 Tablet 遷移的時候可能會佔用部分資源,導致節點資源緊張,出現讀寫性能變面的情況,需要結合調度限流策略和後台遷移節奏控制,避免高峯期觸發重負載影響生產業務。
七、總結與展望
本次日誌系統遷移從 OpenSearch 到 Apache Doris,不僅達成了顯著的成本節省目標,更為未來系統擴展、查詢效率、可運維性打下了堅實基礎。
核心收益包括:
- 大幅減少服務器和對象存儲支出,綜合成本下降超 45%;
- 查詢響應時間縮短至原系統的 1/5 以下;
- 日誌寫入幾乎實時,支持更及時的業務反饋;
- 系統架構更簡單、可維護性更強,支持更靈活的運維策略。
通過這次實踐,我們驗證了在日誌系統中“結構化 + 列式存儲 + MPP 查詢”模式的巨大潛力。在追求性能和成本平衡的場景下,Doris 提供了一條可行且高效的替代路徑,為企業日誌平台建設提供了新的思路與方向。