tag 數據湖

標籤
貢獻7
53
05:15 PM · Oct 25 ,2025

@數據湖 / 博客 RSS 訂閱

鏡舟科技 - 如何理解 Apache Iceberg 與湖倉一體(Lakehouse)?

一、什麼是湖倉一體(Lakehouse)? 湖倉一體是一種融合了數據湖的靈活存儲能力與數據倉庫的高效分析功能的現代數據架構。它通過整合兩者的優勢,解決了傳統架構的侷限性,為企業數據處理提供了更全面的解決方案。 數據湖的開放性:支持多格式數據存儲(如 Parquet、ORC),兼容開放生態(如Hive、Iceberg),存儲成本低。 數據倉庫的高性能:提供 ACID 事務、高效查詢和實時分析能

微信 , hive , 數據倉庫 , iceberg , 數據湖

收藏 評論

鏡舟科技 - 載譽而歸!鏡舟科技亮相2025 OSCAR開源產業大會,榮獲“開源+商業化產品”獎

10月28日,2025 OSCAR 開源產業大會在北京圓滿落幕。憑藉其在開源技術創新與商業化落地方面的卓越成就,鏡舟科技榮獲“2025年度開源+商業化產品”獎項。該獎聚焦開源技術的工程化能力與商業落地價值,旨在表彰那些不僅在開源社區擁有強大技術影響力,更成功地將開源技術轉化為成熟、可靠的商業產品,並創造出顯著市場價值的標杆企業。 本屆大會上,圍繞湖倉一體架構帶來的降本增效、國產化適配下的自主可

bi , 架構 , 開源 , starrocks , 數據湖

收藏 評論

SeaTunnel - (三)從分層架構到數據湖倉架構系列:數據倉庫分層之貼源層和數據倉庫層設計

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

大數據 , 數據倉庫 , 數據庫 , 開源 , 數據湖

收藏 評論

StarRocks - StarRocks 4.0:Real-Time Intelligence on Lakehouse

回顧 StarRocks 的進化之路,每一次大版本迭代都緊扣時代對數據分析的核心訴求。 StarRocks 1.x,打造極速查詢性能,解決 BI 報表、數據探尋慢的痛點問題。 StarRocks 2.x,解決‘實時分析’的難題,幫助用户更快的洞察業務。 StarRocks 3.x,升級存算分離架構,打造極速統一的湖倉分析能力,讓數據分析更加的簡單高效。 在新的 AI 時代,模型訓練推理與

人工智能 , starrocks , 數據湖 , Json

收藏 評論

阿里雲大數據AI - 阿里雲DLF 3.0:面向AI時代的智能全模態湖倉管理平台

在2025年雲棲大會上,阿里雲DLF產品負責人李魯兵正式發佈了DLF(DataLakeFormation)3.0,升級為面向AI時代的智能全模態湖倉管理平台。此次發佈標誌着DLF從傳統的湖倉管理工具,全面進化為支持結構化、半結構化與非結構化數據統一管理、安全開放、性能卓越的新一代數據基礎設施。本文將系統梳理DLF3.0的架構演進、核心能力、典型應用場景以及其在實際業務中的落地價值。 一、D

大數據 , 數據倉庫 , 阿里雲 , 數據湖

收藏 評論

SeaTunnel - (二)從分層架構到數據湖倉架構:數據倉庫分層下的技術架構與舉例

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

大數據 , 技術架構 , 數據庫 , 數據湖

收藏 評論

鏡舟科技 - 數據湖典型架構解析:2025 年湖倉一體化解決方案

數據湖架構概述:從傳統模型到 2025 年新範式 數據湖作為存儲海量異構數據的中央倉庫,其架構設計直接影響企業數據價值的釋放效率。傳統數據湖架構主要關注數據的存儲和管理,而 2025 年的數據湖架構已經演變為更加智能化、自動化的綜合性數據平台。 數據湖本質上是一個存儲庫,允許企業以原生格式存儲各類數據,包括結構化、半結構化和非結構化數據。與傳統數據倉庫相比,數據湖採用“讀時模式”(schema-o

架構 , starrocks , 數據分析 , 數據湖 , 數據處理

收藏 評論

鏡舟科技 - 告別 T+1!解密金融級實時數據平台的構建與實踐

在數字金融浪潮下,數據處理的“實時性”已不再是加分項,而是逐漸成為決定業務價值的核心競爭力。 然而,金融機構在追求實時的道路上,往往陷入一個新的困境:實時分析系統與離線大數據平台形成了兩套獨立的“煙囱”,數據孤島、口徑不一、運維複雜、成本高昂等問題隨之而來。如何打破壁壘,在統一的平台上實現對實時流數據和海量歷史數據的統一管理與高性能分析,成為了當下金融機構的核心訴求。 一、業務困境:傳統“T+1”

架構 , starrocks , flink , 數據湖 , 金融行業

收藏 評論

鏡舟科技 - 數據湖和數據倉庫的區別

在當今數據驅動的時代,企業需要處理和存儲海量數據。數據湖與數據倉庫作為兩種主要的數據存儲解決方案,各自有其獨特的優勢與適用場景。本文將客觀詳細地介紹數據湖與數據倉庫的基本概念、核心區別、應用場景以及未來發展趨勢,幫助讀者更好地理解和選擇適合自身需求的數據存儲方案。 一、基本概念 數據湖(Data Lake) 數據湖的概念最早由Pentaho公司的James Dixon在2011年提出,是一種能夠存

大數據 , 數據結構 , 數據倉庫 , 數據分析 , 數據湖

收藏 評論

鏡舟科技 - 什麼是 StarRocks?核心優勢與適用場景解析

在數據量持續爆發的時代,企業對實時分析的需求日益迫切。例如,電商大促期間的交易監控、廣告投放效果的即時反饋等場景,均要求毫秒級的響應速度。然而,傳統工具如 Hadoop、Hive 等存在明顯短板:複雜查詢性能不足、資源擴容成本高、實時與離線數據處理割裂等問題。 StarRocks 的核心定義 StarRocks 是一款新一代極速全場景 MPP(Massively Parallel Processi

高併發 , 數據庫 , 查詢 , 數據湖 , 分析

收藏 評論

百度Geek説 - Iceberg在圖靈落地應用

導讀 百度MEG上一代大數據產品存在平台分散、易用性差等問題,導致開發效率低下、學習成本高,業務需求響應遲緩。為了解決這些問題,百度MEG內部開發了圖靈3.0生態系統,包括Turing Data Engine(TDE)計算存儲引擎、Turing Data Studio(TDS)數據開發治理平台和Turing Data Analysis(TDA)可視化BI產品。依託圖靈3.0生態,我們引入了數據湖表

spark , 數據倉庫 , flink , iceberg , 數據湖

收藏 評論

SelectDB技術團隊 - 數據無界、湖倉無界, Apache Doris 湖倉一體解決方案全面解讀(上篇)

導讀:湖倉一體架構融合了數據湖的低成本、高擴展性,以及數據倉庫的高性能、強數據治理能力,高效應對大數據時代的挑戰。為助力企業實現湖倉一體的建設,Apache Doris 提出了數據無界和湖倉無界核心理念,並結合自身特性,助力企業加速從 0 到 1 構建湖倉體系,降低轉型過程中的風險和成本。本文將對湖倉一體演進及 Apache Doris 湖倉一體方案進行介紹。 在過去的數年間,數據分析技術棧

github , 數據倉庫 , 架構設計 , 數據分析 , 數據湖

收藏 評論

SelectDB技術團隊 - Apache Doris + Paimon 快速搭建指南|Lakehouse 使用手冊(二)

湖倉一體(Data Lakehouse)融合了數據倉庫的高性能、實時性以及數據湖的低成本、靈活性等優勢,幫助用户更加便捷地滿足各種數據處理分析的需求。在過去多個版本中,Apache Doris 持續加深與數據湖的融合,已演進出一套成熟的湖倉一體解決方案。 為便於用户快速入門,我們將通過系列文章介紹 Apache Doris 與各類主流數據湖格式及存儲系統的湖倉一體架構搭建指南,包括 Hudi、Ic

數據倉庫 , 學習方法 , 數據分析 , paimon , 數據湖

收藏 評論

vivo互聯網技術 - Hudi 在 vivo 湖倉一體的落地實踐

作者:vivo 互聯網大數據團隊 - Xu Yu 在增效降本的大背景下,vivo大數據基礎團隊引入Hudi組件為公司業務部門湖倉加速的場景進行賦能。主要應用在流批同源、實時鏈路優化及寬表拼接等業務場景。 一、Hudi 基礎能力及相關概念介紹 1.1 流批同源能力 與Hive不同,Hudi數據在Spark/Flink寫入後,下游可以繼續使用Spark/Flink引擎以流讀的形式實時讀取數據。同一份H

大數據 , 效率 , 數據湖

收藏 評論

鏡舟科技 - 鏡舟數據庫 TPC-DS 性能快報

鏡舟數據庫:極致性能,引領企業級分析新標杆 在數據驅動決策的時代,企業對數據分析平台的性能要求達到了前所未有的高度。毫秒級的延遲差異,可能直接影響商業洞察的效率和業務決策的質量。作為一款面向未來的企業級實時分析數據庫,鏡舟數據庫始終將極致性能作為其核心設計理念。 為了精確量化企業級產品的能力,鏡舟科技基於TPC-DS 基準測試集,對鏡舟數據庫與社區版 StarRocks 進行了同等條件下的深度性能

數據庫 , starrocks , 數據分析 , 數據湖 , olap

收藏 評論

SeaTunnel - (四)收官篇!從分層架構到數據湖倉架構系列:數據服務層和數據應用層及湖倉技術趨勢小結

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

大數據 , 開源軟件 , 數據庫 , 數據湖

收藏 評論

阿里雲大數據AI - Apache Paimon 多模態數據湖實踐:從結構化到非結構化的技術演進

在近期的 Streaming Lakehouse Meetup · Online EP.2|Paimon × StarRocks 共話實時湖倉 直播中,Apache Paimon PMC 成員/阿里雲數據湖資深工程師葉俊豪帶來了關於 Paimon 多模態數據湖的深度技術分享。 隨着大模型訓練對數據規模與多樣性的要求不斷提升,傳統以批處理為中心的數據湖架構已難以滿足 AI 工作負載對實時性、靈活性和

阿里雲 , paimon , 數據湖

收藏 評論

鏡舟科技 - 行業標杆 | 越秀地產入選「2025年度數據湖倉應用創新先鋒企業」

近日,鏡舟科技發佈“2025年度數據湖倉應用創新先鋒企業”獎項,作為中國第一代商品房締造者和全國綜合性房企領軍者,越秀地產憑藉其在數據湖倉建設與應用方面的卓越實踐成功入選,為房地產行業的數字化轉型樹立了標杆。 一、越秀地產數據湖倉建設實踐 1. 選型決策:精準把握技術趨勢 為響應技術自主化、國產化的戰略號召,越秀地產計劃對經營分析系統實行升級,替換原有的微軟 SQL Server Analysi

數字化轉型 , starrocks , 數據分析 , 多表查詢 , 數據湖

收藏 評論

StarRocks - 從分鐘到秒級,從 ClickHouse 到 StarRocks:哈囉的實時進化之路

作者:雲漢翾 哈囉資深大數據開發工程師 導讀: 作為國內領先的出行與生活服務平台,哈囉在多業務協同與實時調度場景下,對數據分析性能和系統穩定性提出了更高要求。 為應對業務多元化帶來的數據增長與計算壓力,哈囉技術團隊完成了大規模 ClickHouse → StarRocks 遷移,並自研數據對比工具實現全流程自動校驗(該工具後續將開源)。 遷移後,查詢性能提升 3–5 倍,系統成本下降超

clickhouse , starrocks , SQL , 數據湖 , olap

收藏 評論