博客 / 詳情

返回

JuiceFS + MinIO:Ariste AI 量化投資高性能存儲實踐

Ariste AI 是一家專注於 AI 驅動交易的公司,業務涵蓋自營交易、資產管理、高頻做市等多個領域。在量化交易研究中,數據的讀取速度和存儲效率,往往直接決定了研究迭代的速度。

Ariste AI 團隊在構建量化研究基礎設施的過程中,面對總規模超過 500TB,行情與因子數據,經歷了從本地盤到最終選擇在 MinIO 對象存儲之上疊加 JuiceFS 文件系統的四個階段。通過緩存機制與分層架構,團隊實現了高頻數據的快速訪問與集中管理。這一實踐驗證了“緩存加速、彈性對象存儲與 POSIX 兼容”三位一體方案在量化場景下的可行性,希望這一經驗能為同行提供一些參考。

01 量化投資存儲挑戰:規模、速度與協作的平衡

量化投資流程依次包括數據層、因子與信號層、策略與倉位層及執行與交易層,構成從數據獲取到交易執行的完整閉環。

在整個過程中,存儲系統面臨多重挑戰,主要體現在以下幾個方面:

  • 數據規模與增速:量化研究所需處理的數據總量較大,涵蓋歷史行情數據、新聞數據以及自行計算的因子數據等。目前,這些數據的總量已接近 500T。並且,企業每日新增的行情數據也達數百 GB。若採用傳統磁盤進行存儲,顯然無法滿足如此巨大的數據存儲需求。
  • 高頻訪問與低延遲要求:高頻的數據訪問依賴於低延遲的數據讀取。數據讀取的速率直接決定了研究效率的高低。若數據讀取速度較快,研究進程便能迅速推進;反之,則會導致研究效率低下。
  • 多團隊並行與數據治理:在量化研究過程中,通常會有多個團隊同時開展不同的實驗。為確保各團隊研究工作的獨立性與數據安全性,需要進行安全的隔離,以避免數據混淆與泄露。

為應對上述量化全流程對數據存儲的需求,打造面向未來的存儲系統,我們的目標是實現:高性能、易擴展與可治理,三者有機統一

  • 高性能:單節點讀寫帶寬突破 500MB/s,訪問延遲低於本地磁盤感知閾值;
  • 易擴展:支持存儲與計算資源按需水平擴容,業務無需改造即可實現平滑彈性伸縮;
  • 可治理:提供細粒度權限控制、操作審計與數據生命週期策略的一站式管理能力。

02 存儲架構的演進

階段一:本地盤極速起步

在項目初期,我們採用了 Quantrabyte 研究框架,該框架內置了 ETF 模塊,可直接將數據存儲在本地磁盤上,數據讀取速度較快。研究員可根據自身需求,直接運行所需數據,迭代過程較為迅速。然而,這一階段也存在一些問題:

  • 重複下載造成資源浪費:多個研究員若使用相同數據,會進行多次下載。
  • 存儲容量不足:研究服務器的存儲容量有限,僅約 15T,難以滿足日益增長的數據存儲需求。
  • 協作困難:當需要複用他人的研究結果時,操作過程不夠便捷。

階段二:MinIO 集中管理的雙刃劍

為解決第一階段存在的問題,我們引入了 MinIO 進行集中管理。將所有存儲數據集中在 MinIO 上,通過拆分出的模塊將數據全部存入。同時,將具體因子數據也存入 MinIO,實現公共數據的統一下載。並通過權限隔離,實現多團隊數據共享,提升存儲空間利用率。

然而,這一階段也出現了新的瓶頸:

  • 高頻隨機讀延遲大:在進行高頻數據 I/O 操作時延遲較大,影響數據讀取速度。
  • 無緩存導致讀寫慢:由於 MinIO 社區版無緩存功能,讀寫高頻公共數據時速度較慢。

階段三:JuiceFS 引入緩存加速

為解決上述瓶頸,經充分調研,我們最終引入 JuiceFS 的緩存加速方案。該方案通過客户端本地 RAID5 存儲進行掛載,藉助高效的緩存機制,成功將讀寫性能提升約三倍,顯著改善了高頻共享數據的訪問體驗

隨着業務數據量突破 300TB,本地存儲的擴容瓶頸逐漸顯現。由於數據存儲在本地,擴容需重新配置存儲設備,而 RAID5 架構下擴容速度緩慢且風險較高,難以滿足業務持續增長的需求。

階段四:JuiceFS + MinIO 集羣終局架構

為解決擴容難題,我們最終採用了JuiceFS+MinIO 集羣架構。該方案具備以下優勢:

  • 持續高性能:JuiceFS 提供充足的緩存能力,充分滿足高頻數據訪問場景的性能需求;
  • 便捷集羣擴展:基於集羣化方案,可快速實現橫向擴容,僅需添加同類型磁盤即可靈活提升存儲容量,大幅增強系統擴展性。

通過四階段演進,我們驗證了緩存加速、彈性對象存儲與 POSIX 兼容三位一體方案在量化場景的可行性。此方案可為同行業提供可複製、可落地的最佳實踐範本,在性能、成本與治理之間取得了卓越平衡。

03 性能與成本收益

通過採用 JuiceFS 與 MinIO相 結合的存儲架構,系統帶寬與資源利用效率得到質的飛躍,目前已完全滿足研究業務對存儲性能的需求。引入 JuiceFS 緩存層後,回測任務執行效率大幅提高,1 億條 Tick 數據回測耗時由之前的數小時降至數十分鐘

同時,基於我們完整的數據生命週期分層存儲體系策略,實現存儲單價由高到低的平滑過渡,整體存儲成本下降40% 以上。

04 運維實踐與展望

多租户治理

在數據隔離與權限管理方面,我們建立了完善的管理體系:

通過命名空間實現邏輯隔離,採用類似 /factor/A/factor/B 的路徑規劃,確保各業務數據邊界清晰。在權限控制層面,支持用户、團隊、項目三個維度的精細化管理,並與 POSIX ACL 權限體系無縫對接。同時建立完整的審計日誌系統,實現訪問行為的實時追蹤與變更歷史回溯,全面滿足合規性要求。

可觀測性與自動化運維

我們圍繞四大核心指標構建了完整的監控體系:緩存命中率、I/O 吞吐量、I/O 延遲與寫入重試率,系統在指標異常時可自動觸發告警

基於 Grafana 實現了運維閉環管理,持續監控節點健康狀態與存儲容量。在每次擴容前,會通過模擬壓測驗證系統承載能力,確保業務無感知。整體運維體系實現了自動化、可預測、可回滾的高標準運維目標。

回測系統中的數據更新設計

我們在回測系統設計中採用基於 DAG(Directed Acyclic Graph,有向無環圖)的架構,以提升系統的計算效率與可維護性。該框架以計算節點和依賴關係為核心,將數據處理、特徵計算、信號生成等環節抽象為節點,並通過依賴圖統一管理。系統內置版本控制機制,當數據版本更新時,可依託依賴圖自動識別受影響的節點,精確定位需重算部分,從而實現高效的增量更新與結果追溯。

未來展望

在未來規劃中,我們將從以下三個方向持續優化存儲架構:

  1. 元數據高可用升級:計劃將元數據存儲從 Redis 遷移至 TiKV 或 PostgreSQL,以構建跨機房高可用架構,顯著提升系統容災與快速恢復能力。
  2. 混合雲分層存儲:通過對接公有云 S3 與 Glacier 存儲服務,構建智能冷熱分層體系,在實現存儲容量無限彈性的同時,達成成本最優化目標。
  3. 研究數據湖統一治理:計劃構建統一的研究數據湖平台,集成 Schema 註冊、自動數據清洗與統一目錄治理等核心服務,全面提升數據資產的發現與管理效率。

我們希望本文中的一些實踐經驗,能為正在面臨類似問題的開發者提供參考,如果有其他疑問歡迎加入 JuiceFS 社區與大家共同交流。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.