博客 / 列表

u_14767244 - Doris Catalog 已上線!性能提升 200x ,全面優於 JDBC Catalog,跨集羣查詢邁入高性能分析時代

“統一”是 Apache Doris 長期以來秉持的設計理念之一。在這一理念指引下,構建完善的 Catalog 生態是實現異構數據源統一查詢分析的關鍵。目前,Doris 已支持 Iceberg、Paimon、Hudi 等數據湖 Catalog,以及 JDBC Catalog,用户無需遷移數據,即可對不同數據湖和傳統數據庫進行聯邦查詢分析。 本文聚焦 Doris 多集羣間的查詢分析。實

大數據 , 數據 , 執行計劃 , 數據倉庫 , 數據庫 , SQL , apache

u_14767244 - 5 倍性能提升,Apache Doris TopN 全局優化詳解|Deep Dive

在日常的數據分析和業務報表中,TopN 查詢幾乎無處不在:無論是尋找銷量最高的前十件商品,還是篩選訪問量最多的前幾條日誌,開發者和數據分析師都在頻繁處理“前 N 條數據”。然而,當表的列數達到百餘或更多時,一個看似簡單的 SELECT \* … ORDER BY … LIMIT N 查詢,背後可能隱藏着巨大的性能瓶頸。儘管我們只關心某一列的前 N 條結果,數據庫依然可能掃描整張表的所有列

大數據 , Doris , 數據 , 數據倉庫 , 數據訪問 , SQL , apache

u_14767244 - Apache Doris 4.0.2 版本正式發佈

親愛的社區小夥伴們,**Apache Doris 4.0.2 版本已正式發佈。**此版本新增了在 AI Search、函數、物化視圖、Lakehouse 等方面的功能,並同步進行了多項優化改進及問題修復,歡迎下載體驗! GitHub 下載:https://github.com/apache/doris/releases 官網下載:https://doris.apach

大數據 , hive , 數據倉庫 , 人工智能 , 物化視圖 , apache

u_14767244 - 面向 Agent 的高併發分析:Doris vs. Snowflake vs. ClickHouse

數據價值的不斷升級,是過去三十年來數據庫演進的核心驅動力。而 AI 的崛起,將這一需求推向新的高度:數據不僅要能被“看”到,更要能被“理解”和“創造”——這一點已在基於大語言模型(LLM)為核心的代碼生成、智能對話等應用中得以驗證。 這一背景下,由自主 AI 智能體(Agent)驅動的分析已成為典型範式。 智能體能夠獨立推理、實時分析數據,甚至主動觸發行動。這意味着分析模式正從被動報

執行引擎 , 大數據 , 數據 , 數據倉庫 , apache

u_14767244 - Apache Doris 實時更新全解:從設計原理到最佳實踐|Deep Dive

在數據驅動決策的今天,數據的“新鮮度”已成為企業在激烈市場競爭中脱穎而出的核心競爭力。傳統的 T+1 數據處理模式,由於其固有的延遲,已無法滿足現代商業對實時性的苛刻要求。無論是為了實現毫秒級的業務庫與數據倉庫同步、動態調整運營策略,還是為了在秒級內修正錯誤數據以保障決策的準確性,強大的實時數據更新能力都顯得至關重要。 Apache Doris作為一個現代化的實時分析型數據庫,其設計

字段 , 大數據 , 數據 , 數據倉庫 , 主鍵

u_14767244 - Apache Doris 在小米統一 OLAP 和湖倉一體的實踐

小米早在 2019 年便引入 Apache Doris 作為 OLAP 分析型數據庫之一,經過五年的技術沉澱,已形成以 Doris 為核心的分析體系,並基於 2.1 版本異步物化視圖、3.0 版本湖倉一體與存算分離等核心能力優化數據架構。本文將詳細介紹小米數據中台基於 Apache Doris 3.0 的查詢鏈路優化、性能提升、資源管理、自動化運維、可觀測等一系列應用實踐。

大數據 , 數據 , 運維 , 數據倉庫 , 物化視圖

u_14767244 - 宇信科技與 Apache Doris 的深度融合

客户背景 深耕銀行 IT 建設領域 26 的年, 宇信科技服務超數百家金融機構,覆蓋核心系統、渠道平台、風控中台等關鍵業務場景。其數據條線團隊專注經營分析場景 20 餘年,為城商行、農商行提供從報表系統到智能決策的全棧解決方案。隨着銀行業數字化進程步入深水區,宇信科技面臨雙重挑戰:一方面,市場節奏的加快,讓客户對“分鐘級數據響應”需求迫切,傳統數據平台的處理效率與擴展能力已顯滯後;另

大數據 , 數據 , 數據倉庫 , 數據分析 , apache

u_14767244 - 上海證券 SelectDB 升級實踐:湖倉流批一體落地與 Elasticsearch 全面替換

導讀 上海證券引入 SelectDB 作為核心實時分析引擎,有效彌補了實時數據處理與分析的能力短板,實現湖倉一體與流批一體,同時替換了原架構中的 Elasticsearch 組件。達成了寫入性能提升 4 倍,支撐 1000+ QPS 高併發訪問,關鍵決策響應速度 200 ms,開發效率提升 50%,運維成本大幅降低的關鍵收益。 業務背景 上海證券成立於 200

大數據 , 數據 , elastic , 運維 , 數據倉庫

u_14767244 - 字節跳動:Apache Doris + AI 一站式融合數據引擎的探索與實踐

隨着人工智能技術在業務中的滲透,我們逐漸意識到:AI 不僅是提升效率的工具,更是重構數據處理與消費方式的核心驅動力。在這一背景下,我們思考:能否構建一款「AI + Data」一站式融合的數據引擎? 它不僅能夠統一處理文本、音視頻等非結構化數據與傳統結構化數據,還能為算法工程師提供流暢的數據開發體驗,實現數據處理與 AI 模型無縫銜接,並能確保數據處理負載與在線服務負載完全隔離。這是 20

大數據 , 數據 , 搜索 , 數據倉庫 , AI , 人工智能 , Python

u_14767244 - Apache Doris 中的 Data Trait:性能提速 2 倍的秘密武器

在數據庫系統的核心層,查詢優化器如同一位精明的策略家,不斷分析數據特徵並制定最優執行計劃。Apache Doris 作為一款高性能的 MPP 分析型數據庫,其優化器內置的 Data Trait 分析機制,通過挖掘數據內在的統計特徵和語義約束,為查詢優化提供了基礎設施。讓我們一起來探索這個強大的功能! 什麼是 Data Trait? 想象一下,如果你能提前知道數據的 “性格特徵”,

大數據 , 數據 , 數據倉庫 , 函數依賴 , SQL

u_14767244 - 壓縮率提升 48%,詳解 Apache Doris 存儲壓縮優化之道|Deep Dive

摘要 本文基於 ClickBench 數據集,展示了 Apache Doris 如何通過選擇壓縮算法、調整數據頁大小與分桶數、優化編碼策略以及改進數據排序來提升壓縮效率。最終,相同數據集的壓縮空間從 16.08 GB 降至 8.2 GB,壓縮率提升 48.6%。通過合理的調整與優化,Doris 成功在保持查詢性能的同時顯著降低了存儲成本。 在分析型數據庫中,列式存儲是壓縮和

大數據 , 字符串 , 數據 , 數據倉庫 , 壓縮算法

u_14767244 - 深入理解 Doris Variant:如何讓 JSON 查詢性能追平列存,還能承載萬列索引字段?|Deep Dive

摘要:在如 Snowflake、ElasticSearch、ClickHouse.... 等傳統系統中,對於 JSON 的處理往往面臨靈活性及性能無法兼得的困境,而 Apache Doris 的 VARIANT 類型,通過動態子列、稀疏列存儲、延遲物化和路徑索引等能力,實現了靈活結構 + 列存性能的平衡。本文將對該能力的實現一一講解,全面展示其優勢。 在大數據時代,JSON 已

大數據 , 數據 , 數據倉庫 , 結構化 , Json

u_14767244 - 為什麼實時更新場景下 Doris 查詢性能是 ClickHouse 的 34 倍

在當今數據驅動的商業環境中,企業越來越依賴數據分析來驅動決策。無論是用户行為分析、業務報表還是運營監控,企業都需要具備快速、高效的數據處理能力。企業在數據分析能力上的演進,往往始於 TP(事務處理)系統,隨着業務發展不斷探索 TP 系統的擴展方案,最終走向構建獨立的 AP(分析處理)系統。 企業實時分析典型演進過程 第一階段:使用 TP 系統支撐事務處理和數據分析 在企業信息

高併發 , 大數據 , 數據倉庫 , 實時分析 , apache

u_14767244 - 2-5 倍性能提升,30% 成本降低,阿里雲 SelectDB 存算分離架構助力波司登集團實現降本增效

波司登集團作為全球領先的羽絨服公司,每年的銷售旺季集中在四個月間,需高效把握業務機遇以實現高營收。為滿足集團銷售旺季的實時數據分析需求,同時降低淡季數據分析成本,波司登決定升級大數據架構,採用阿里雲數據庫 SelectDB 版升級數倉,基於阿里雲 SelectDB 雲原生存算分離架構,實現了資源隔離與彈性擴縮容,並取得了查詢性能提升 2-5 倍、總體成本降低 30% 以上、效率提升 30

大數據 , 數據 , 離線 , 數據倉庫 , 數據分析

u_14767244 - SelectDB x 同轅開發:在 ARM 架構下實現 25% 分析性能提升

近日,北京飛輪數據科技有限公司(以下簡稱“飛輪科技”)旗下現代化數據倉庫 SelectDB 完成同轅開發深度適配,正式獲得 Kunpeng Native 測試認證證書。 該認證表明 SelectDB 深度兼容鯤鵬芯片,可實現高效部署。通過與同轅開發協同創新,SelectDB 實時分析、湖倉一體、存算分離等核心能力,可針對性解決海量數據處理慢、實時決策延遲、運維複雜等痛點,助力金融、製造、

大數據 , 數據 , 數據倉庫 , 數據分析

u_14767244 - 從 Flink 到 Doris 的實時數據寫入實踐——基於 Flink CDC 構建更實時高效的數據集成鏈路

Flink-Doris-Connector 作為 Apache Flink 與 Doris 之間的橋樑,打通了實時數據同步、維表關聯與高效寫入的關鍵鏈路。本文將深入解析 Flink-Doris-Connector 三大典型場景中的設計與實現,並結合 Flink CDC 詳細介紹了整庫同步的解決方案,助力構建更加高效、穩定的實時數據處理體系。 一、Apache Doris 簡介 A

數據同步 , 大數據 , 數據 , 數據倉庫 , apache

u_14767244 - 浩瀚深度:從 ClickHouse 到 Doris,支撐單表 13PB、534 萬億行的超大規模數據分析場景

浩瀚深度([SHA: 688292])旗下企業級大數據平台選擇 Apache Doris 作為核心數據庫解決方案,目前已在全國範圍內十餘個生產環境中穩步運行,其中最大規模集羣部署於 117 個高性能服務器節點,單表原始數據量超 13PB,行數突破 534 萬億,日均導入數據約 145TB,節假日峯值達 158TB,是目前已知國內最大單表。憑藉 Apache Doris 的高可靠、

hdfs , 大數據 , 數據 , 數據倉庫 , apache

u_14767244 - 公開免費!Apache Doris & SelectDB 培訓與認證課程正式上線

Apache Doris SelectDB 培訓與認證課程上線信息分析 一、課程上線背景 隨着 Apache Doris 用户羣體不斷壯大,用户在學習和掌握該數據庫過程中面臨“缺乏系統性指導”的問題。無論是初次接觸的新手,還是希望在特定場景深度應用的用户,均迫切需要一套從0到1、覆蓋全面的學習路徑。基於此需求,飛輪科技正式推出 Apache Doris SelectDB 培訓

大數據 , 運維 , 數據倉庫 , 數據庫 , apache

u_14767244 - 十億 JSON 秒級響應:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL

坦白講,每次看性能測試排行榜,我都會下意識地先找找 Apache Doris 在哪個位置。 這次打開 JSONBench 的榜單,心情一如既往的期待加緊張。 好在結果讓我鬆了一口氣:默認配置下就能排到第三,僅次於維護方 ClickHouse 的兩個版本。 不過,Doris 只能止步於此了嗎?經過一系列優化後,查詢時長能不能再縮短點?和 ClickHouse 的差距在哪裏?

大數據 , 數據 , 數據倉庫 , apache , Json

u_14767244 - Apache Doris AI 能力揭秘(三):AI_AGG 與 EMBED 函數深度解析

在初步探索了 AI 函數的可能性之後,本次我們將目光投向兩個更為核心的函數:AI_AGG 和 EMBED。我們將深入解析這兩個函數的設計理念、實現原理及其在業務場景中的應用,展示 Apache Doris 如何通過原生的函數設計,將文本聚合與語義向量分析無縫集成到 SQL 中,為用户提供更強大、更易用的智能數據分析體驗。 相關閲讀: Apache Doris 4.0 AI 能力揭

數據庫Apache Doris , 大數據 , app , 數據倉庫 , SQL , ci

u_14767244 - SelectDB 在 AWS Graviton ARM 架構下相比 x86 實現 36% 性價比提升

在海量數據分析中,追求高性價比已成為各大企業的主流趨勢。ARM 架構憑藉其高能效和低成本的特點,逐漸在數據中心崛起,成為理想的高性價比選擇。基於 ARM 架構的 AWS Graviton 系列處理器,正是這一趨勢的典型代表。Graviton 處理器不僅在計算性能上表現優異,同時顯著降低了運行成本,尤其在數據密集型任務中展現出明顯優勢。與傳統的 x86 架構處理器相比,Graviton 提

AWS , 大數據 , 數據倉庫 , 性能比較 , 數據處理

u_14767244 - 森馬服飾從 Elasticsearch 到阿里雲 SelectDB 的架構演進之路

森馬引入阿里雲 SelectDB 替換原 Elasticsearch + 業務庫混合架構,統一分析 16+ 核心業務,打通 BI 組件,大幅簡化數據同步鏈路和分析系統架構。實現複雜查詢 QPS 提升 400%,響應時間縮短至秒級,億級庫存流水聚合查詢縮短至 8 秒內的顯著收益,有效驅動森馬全渠道運營效率持續增長與業務創新。 早期架構面臨挑戰 浙江森馬服飾股份有限公司

大數據 , 數據 , elastic , 數據倉庫 , 數據分析