博客 / 詳情

返回

如何打造AI時代的數據基石 | Databend Meetup 上海站回顧

Data + AI 已經成為數據從業人員必須關注的技能。在基於 Databend Cloud 平台上可以大大簡化數據人員在數據基礎工作方面的投入,讓數據人員可以花更多的精力去研究 Data + AI 的實踐。在此背景下,11月29日,Databend Meetup·上海站線下活動"如何打造 AI 時代的數據基石",彙集了國內數據庫領域多位一線專家:Databend 創始人吳炳錫、沉浸式翻技術專家陳琦,沈超、資源數據平台架構師邵鋒、TiDB 解決方案架構師 劉源、空中雲匯架構師趙飛祥以及來自各行各業的技術負責人,數據部門負責人。參會嘉賓圍繞"如何打造 AI 時代的數據基石"的主題,共同探討了大模型時代數據庫和數據平台的創新演進與實戰應用。

圖片

以下內容就將為您帶來這些話題背後的深度思考:
基於 Databend 無編程實 Data Pipeline 及數據分析
Databend Labs 聯合創始人吳炳錫,系統地介紹了 Databend 作為一款雲原生數據倉庫,如何以其獨特架構和技術特性,極大地簡化和革新傳統大數據 Data Pipeline 的構建與數據分析流程,並展示了其與 AI 融合的強大潛力。

圖片

Databend 的清晰定位:解決傳統大數據之痛
分享開宗明義,指出了 Databend 的核心定位:簡單易用、高性能、低成本。其目標是成為一款雲原生湖倉一體化產品,旨在:

降低雲上大數據成本:利用對象存儲實現極致的存算分離和低成本存儲。
簡化數據架構:堅持" SQL 為王",讓複雜的湖倉開發變得像使用傳統數據庫一樣簡單。
統一數據樞紐:支持構建企業級統一數據倉庫,並提供跨多雲、跨 IDC 的高可用體驗。

核心革新:重構 Data Pipeline 的開發模式
分享通過對比,深刻剖析了傳統大數據架構(依賴 Kafka, Flink, Spark, Trino 等繁多組件)的痛點:技術棧複雜、技術要求高、落地慢、運維成本高昂。
針對這些痛點,Databend 提出了一套以 SQL 為中心 的"無編程" Data Pipeline 解決方案,其核心構件包括:

數據秒級攝入 (COPY INTO + External Stage):通過監聽對象存儲事件,實現海量數據的快速加載與可見。
內置流計算 (Stream):提供表級增量變更捕獲能力,無需額外組件即可實現高效的實時 ETL,性能提升可達 10 倍。
自動化任務調度 (Scheduled Task):通過 Serverless Task 實現完整的數據處理工作流編排,讓一個懂 SQL 的人就能輕鬆完成複雜的數據治理。
強大的外部函數 (UDF):支持用 Python 等語言輕鬆擴展功能,實現與外部系統(如更新 Redis)或 AI 服務的無縫集成。

與 AI 的深度融合:從數據平台到智能基座
分享重點展示了 Databend 在 AI 時代的前瞻性,其與 AI 的融合體現在兩個層面:

原生 AI 能力:內置向量計算和 AI 函數(如cosine_distance),為 AI 應用提供開箱即用的支持。
可擴展的 AI 集成 (External UDF):通過 UDF 可以方便地調用 Embedding 模型、情感分析、文本相似度等外部 AI 服務,將 Databend 升級為一個支持智能化數據分析與應用的" AI 原生"平台。

卓越效益與廣泛驗證
分享通過具體數據證明了 Databend 的卓越效益:

成本大幅降低:在替換 Trino/Presto、Elasticsearch、數據歸檔等場景中,成本降低 75% 到 95%。
極致的可擴展性:支持單表 2.6 萬億行、1PB+ 的超大規模數據處理。
廣泛的行業應用:已成功服務於中信銀行、微盟、蘋果中國等知名企業,應用於主數據平台、日誌分析、數據歸檔等多種場景。

總結
Databend 通過其雲原生、一體化的架構,將複雜的大數據技術棧簡化為以 SQL 為核心的開發體驗,從根本上降低了數據開發的門檻、成本和運維負擔。 它不僅是一個高性能的數據倉庫,更是一個內置了流處理、任務調度和強大擴展能力的數據平台操作系統。在 AI 時代,其原生及可擴展的 AI 能力進一步使其成為企業構建智能化應用的理想數據基石,完美契合了當下企業追求降本增效和快速創新的核心訴求。
構建海量記憶:基於 Databend 的 2C Agent 平台|沉浸式翻譯
沉浸式翻譯團隊技術專家陳琦在 構建海量記憶:基於 Databend 的 2C Agent 平台|沉浸式翻譯實踐分享,核心闡述了他們如何利用 Databend 構建一個面向海量用户的、具備"長期記憶"能力的 AI Agent 平台。
沉浸式翻譯在比較早期已經接入 Databend , 公司內部在無運維的情況下,支撐了千萬級用户,月活百萬級用户。Databend 目前不但承擔沉浸式翻譯的平台分析數據,也承擔了部分業務類數據。 目前團隊正在 Databend 上構建海量記憶體的 2C Agent 平台。

圖片

核心挑戰:
傳統方案的痛點:

組件割裂:維護向量庫、關係型數據庫、緩存等多套系統,開發和運維複雜。
缺乏生命週期管理:向量庫只增不減,導致噪音增加、性能下降、成本飆升。

為什麼選擇 Databend?

All-in-One:統一處理向量、結構化和半結構化(JSON)數據,簡化架構。
Serverless:零運維、按需付費,完美契合小團隊"小步快跑"的模式。
可編程性:通過 SQL、UDF 和 Task 實現複雜的數據處理和生命週期管理。大大簡化開發投入

核心架構與創新(MemOS):

MemNodes 表:作為記憶實體,利用計算列和聚簇索引優化混合查詢(向量+條件過濾)性能。
MemEdges 表:構建記憶圖譜,用 SQL 存儲關係,解決純向量檢索無法處理的邏輯推理問題。
混合檢索算法:結合 SQL 過濾、向量搜索和圖關聯,實現精準且上下文豐富的記憶召回。
自動化生命週期:通過 Serverless Task 定期對記憶進行摘要融合和歸檔,實現"會遺忘的智能系統"。

價值總結:
該實踐成功地將 Databend 作為統一數據基石,以極低的運維成本和優雅的技術方案,實現了從"翻譯工具"到懂用户的"語言伴侶"的演進,為 2C AI 提供了易用,低成本,高性能的平台。

圖片

Data + AI - 數據平台的應用和實踐
第三個分享中邵鋒老師帶着一線經驗給我們分享數據平台的建設和 Data+AI 實踐。屬於非常硬核的分享,因為保密問題就不再公開邵鋒老師的分享。

圖片

AI 時代的數據基石:趨勢、挑戰與 TiDB 實踐
TiDB 解決方案架構師劉源老師,從行業更宏觀的視角探討了 AI 時代的數據挑戰,並闡述了 TiDB 作為"數據基石"的解決方案和案例。

圖片

核心洞察:

AI 發展趨勢:大模型進入平台期,下一代突破指向"世界模型"。當前 AI 面臨幻覺問題(源於概率生成的有損壓縮)、算力消耗和倫理安全等挑戰。
AI 應用現狀:情感陪伴、內容生成等"幻覺友好型"應用火熱,但金融、製造、醫療等嚴肅 ToB 場景落地艱難,面臨數據治理缺失、場景碎片化等挑戰。

AI 時代對數據庫的新要求:

多模態融合:同時處理關係表、向量、全文、圖譜等數據,"多庫合一"。
實時與高擴展:彈性支撐 Agent 的推理、記憶和 Multi-Agent 協作。
支持 AI 原生體驗:成為 Agent 的"集體記憶中樞",能主動交互。

TiDB 的解決方案:

核心特性:金融級高可用、天生的彈性擴展、HTAP 一體化架構、正在演進的多模態數據融合能力。

AI 原生探索:

增強數據訪問層:通過 RAG、GraphRAG 等技術,將 TiDB 打造成企業知識核心,降低大模型幻覺。
構建 Data Agent 能力:研發 AutoFlow,讓用户用自然語言直接進行混合查詢和數據分析。
面向 Multi-Agent 未來:扮演"共同記憶體",支持數據版本化、分支管理等。

案例與價值:

為多家國內 TOP AI 及 Agent 廠商提供了可彈性擴展的數據底座,支撐了業務從零到億級估值的狂飆。
與 Databend 在歸檔場景合作,利用 TiDB 處理實時事務,Databend 處理低成本歷史分析,實現降本增效。
提出企業級 AI 平台整體架構,強調從"數據拼接"到"原生融合"的範式變革。

圓桌討論環節
在該環節邀請又邀請了空中雲匯數據架構師趙飛祥,沉浸式翻譯團隊數據分析師沈超,TiDB 解決方案架構師劉源, 數據平台架構師邵峯 四位嘉賓一共交流了 AI 時代個人職業方面的感受, AI 對工作方面帶來的變化, AI 時代需要什麼樣的人。

圖片

總結大家的觀點:

AI 時代,讓人每個人的能力更強了,能做的事更多了。 原來複雜的數據分析工作,原來可能需要1周,現在可能就是 1-2 天,或是更快。
在 AI 時代不要給自我設限,上手一門技能非常的快。
在 AI 時代更需要有 Owner 精神,端到端的解決問題的思路,需要懂得把工作拆分及推動下去。
在 AI 時代同樣需要有專業和權威的精神,能經住團隊的挑戰,能讓老闆放心把工作交給你。

圓桌討論將視野拉回至"人"本身,為我們揭示了在 AI 時代更寶貴的特質。 當技術門檻被AI工具不斷降低,"Owner 精神"、"端到端解決問題" 的能力以及 "專業權威" 的深度,構成了技術人新的護城河。AI 放大了個體的能力邊界,但判斷力、責任心和推動力,依然是不可替代的價值所在。
總結而言,本次 Meetup 清晰地傳遞出一個信號: 打造 AI 時代的數據基石,已從一道可選題變為一道必答題。其答案不在於堆砌最前沿的獨立組件,而在於選擇一個能夠簡化架構、統一數據、智能賦能,並能伴隨組織共同成長的一體化平台。我們欣慰地看到,以 Databend、TiDB 為代表的國內數據庫力量,正以紮實的技術創新和豐富的場景實踐,為各行各業提供着這道"必答題"的優秀解方。數據的浪潮奔涌向前,AI 的篇章剛剛開啓。感謝所有嘉賓的傾情分享與參會者的熱情投入,讓我們共同期待,在這塊堅實、智能的數據基石之上,生長出下一個時代的偉大應用。
關於 Databend
Databend 是一款 100% Rust 構建、面向對象存儲設計的新一代開源雲原生數據倉庫,統一支持 BI 分析、AI 向量、全文檢索及地理空間分析等多模態能力。期待您的關注,一起打造新一代開源 AI + Data Cloud。
👨‍💻‍ Databend Cloud:databend.cn
📖 Databend 文檔:docs.databend.cn
💻 Wechat:Databend
✨ GitHub:github.com/databendlab...

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.