动态

详情 返回 返回

雲棲實錄|MaxCompute全新升級:AI時代的原生數據倉庫 - 动态 详情

本文根據 2025雲棲大會演講整理而成,演講信息如下:
演講人:
張治國 阿里雲智能計算平台事業部MaxCompute 負責人
於得水 阿里雲智能集團資深技術專家
謝德軍 阿里雲智能集團資深技術專家

在雲棲大會的ODPS分論壇上,阿里雲MaxCompute迎來了十五週年的重大技術發佈。從雲原生到AI原生,MaxCompute正式宣告邁入一個全新的發展階段,推出AI原生數據倉庫核心能力,構建面向AI時代的大數據基礎設施。

此次升級不僅是對過去十五年技術沉澱的總結,更是對未來企業智能化轉型的系統性迴應。隨着生成式AI的快速演進,海量、多模態、高複雜度的數據處理需求成為常態,傳統大數據平台面臨開發割裂、算力不足、管理混亂等多重挑戰。為應對這一趨勢,MaxCompute圍繞統一數據底座、異構算力調度、模型與數據融合三大方向全面升級,實現從“傳統數據倉庫”向“AI原生數倉”的躍遷。

AI時代的挑戰:數據、算力與模型的協同困境

在人工智能驅動的今天,數據的價值不再侷限於統計分析和報表呈現,而是直接參與模型訓練、推理決策與業務閉環。然而,企業在落地AI應用時普遍面臨四大核心痛點。

首先是數據形態的多樣化,圖像、音頻、視頻、PDF等非結構化內容大量涌現,存儲分散於不同系統,元數據不統一,難以形成全局視圖。其次是開發流程的割裂。數據工程師依賴SQL進行ETL處理,而算法科學家則使用Python進行建模,兩個羣體在不同平台、不同語言、不同環境中工作,導致數據流轉頻繁、協作成本高昂。

與此同時,AI任務的計算負載具有顯著的“脈衝式”特徵——某段時間內需要爆發式算力完成全量數據預處理,其餘時間僅需少量資源處理增量任務。傳統架構難以實現秒級彈性擴縮,資源利用率低,成本居高不下。更深層次的問題在於工程化能力薄弱:自建集羣運維複雜,開源組件集成困難,缺乏統一的模型管理機制,安全合規風險突出。
image.png

面對這些挑戰,企業需要一個能夠整合數據處理與AI計算、兼顧性能與成本、支持敏捷開發與高效運維的一體化平台。這也是MaxCompute此次全面升級的核心出發點。

能力體系重塑:AI原生數據倉庫的四大核心方向

image.png
為解決上述問題,MaxCompute基於“Data+AI一體化”的設計理念,構建了一套覆蓋數據、算力、模型與融合層的能力體系,旨在打造真正意義上的AI原生數據倉庫。

一、Serverless極致彈性異構算力:滿足突發算力極致需求

MaxCompute始終以“Serverless”為核心理念,提供共享的計算資源池,支持按需使用、按量計費。在此基礎上,平台進一步強化了自動彈性與異構算力支持能力。

通過AutoScaling,用户可配置分時彈性或啓用全自動擴縮容策略,系統將基於歷史負載與預測模型動態調整資源規模。更重要的是,平台已全面支持GPU資源的集成使用。用户可通過控制枱一鍵開通GU配額,MC提供雲上彈性的CPU與GPU的異構計算能力。

實測表明,MaxCompute 可在10秒內拉起10萬CU計算資源,真正實現“用多少,付多少”,滿足AI任務對突發算力的極致需求。

二、多模態數據管理:打通“湖”與“倉”的邊界

image.png
針對非結構化數據治理難題,MaxCompute提出了分層解決方案實現從數據發現到融合計算的完整鏈路。

對於仍存於OSS等對象存儲中的原始文件,平台提供Object Table能力,可將圖片、音視頻、PDF等非結構化文件映射為表對象,納入統一元數據管理體系。用户可通過標準SQL查詢其路徑、大小、格式等信息,實現對湖上資產的集中治理。

而對於需要深度參與分析與訓練的數據,平台推出了Blob數據類型,允許將非結構化內容直接寫入MaxCompute內部表中,與STRING、STRUCT等結構化字段共存於同一行。這種混合存儲模式,使得圖像與其標籤、文本與其嵌入向量可在同一記錄中管理,為後續的聯合查詢與AI訓練提供了堅實基礎。

此外,平台還支持Schema-on-Read機制,對未定義Schema的湖上數據自動推斷結構,降低接入門檻。這兩種能力——Object Table用於湖上資產管理,Blob類型用於倉內融合計算——共同構成了MaxCompute多模態數據管理的核心支撐。

三、統一AI模型管理:讓模型成為可編程的數據資產

image.png
模型作為新一代數字資產,其重要性不亞於數據本身。為此,MaxCompute建立了完整的模型生命週期管理體系,支持多種來源的模型註冊與調用。

MaxCompute 支持公共模型(如Qwen3、DeepSeek-R1-Distill-Qwen)、用户導入模型、遠端部署模型(如PAI-EAS服務)等多種類型,並提供版本控制能力,便於灰度發佈與回滾操作。更重要的是,模型可在SQL和Python兩種開發範式中無縫調用。無論是通過CREATE MODEL語句創建模型,還是在MaxFrame 腳本中加載LLM實例,開發者都能獲得一致的使用體驗。這種統一管理機制,打破了AI平台與數據平台之間的壁壘。

四、AI Function:構建數據與AI的連接器

image.png
如何讓大模型能力真正融入日常數據處理流程?MaxCompute推出AI Function,將大模型推理封裝為可編程函數,用户無需部署、無需調參,即可在批處理作業中調用其能力。

內置Qwen3、DeepSeek系列模型,支持結構化信息提取、文本翻譯、Embedding生成等典型任務。例如,在處理非結構化就診記錄時,可通過AI_EXTRACT接口自動提取患者姓名、症狀、診斷等字段;在處理跨國業務數據時,可調用AI_TRANSLATE實現高質量翻譯。

這些函數不僅支持在CPU上運行輕量級模型,也可調度GPU資源執行高精度推理。實測表明,在百萬行文本的結構化提取任務中,系統可在小時級穩定完成,吞吐能力達到行業領先水平。

核心技術突破:從SQL引擎到分佈式Python引擎

在整體架構升級的背後,是多項關鍵技術的深度優化與創新突破。
image.png

在批處理性能方面,MaxCompute SQL引擎持續打磨複雜類型處理能力。通過對STRUCT、ARRAY等嵌套結構的列式存儲重構,結合UNNEST算子的內部執行計劃優化,顯著減少了重複掃描與中間結果膨脹。在典型客户場景中,涉及複雜類型的查詢性能提升達3倍以上。同時,Auto Partition功能支持基於表達式生成分區列,並結合強大的函數理解框架實現精準分區裁剪,進一步提升了查詢效率。

在近實時能力建設上,Delta Table已成為統一的數據底座。它不僅兼容傳統的追加寫入模式,還支持主鍵更新與刪除操作,滿足流批一體的加工需求。基於此構建的Delta Live MV(增量物化視圖)功能,實現了聲明式、免運維的數倉分層機制。用户只需定義一次SQL邏輯,系統即可自動判斷是否採用增量計算,分鐘級刷新結果,相比傳統鏈路成本降低90%。

與此同時,MaxQA查詢加速引擎已完成公測驗證,即將正式商業化。該引擎專為交互式分析設計,支持GB至TB級數據的秒級響應,且完全兼容MaxCompute SQL語法,包括UDF、Append Delta表和增量物化視圖等功能。通過專屬資源池配置,保障高併發場景下的穩定性,滿足BI報表、即席查詢等高頻訪問需求。
image.png
而在AI計算層面,新一代分佈式Python引擎DPE(Distributed Python Engine)正式上線。該引擎基於Ray構建,但在接口層保留了MaxFrame對Pandas語義的高度兼容,開發者可像編寫本地腳本一樣開發分佈式程序。無論是XGBoost模型訓練,還是大規模Pandas數據清洗,均可在雲端無縫運行。

DPE的最大優勢在於其“All-in-MaxCompute”的設計理念。所有任務均在統一管控下執行,資源調度精細化,故障恢復自動化。更重要的是,它與SQL引擎共享同一套元數據和存儲服務,可在同一個作業流中自由切換執行引擎——部分邏輯由SQL處理,另一部分交由Python完成,全程無感知、無中斷。

場景落地:MaxCompute 助力客户釋放AI潛能

MaxCompute 新增能力目前已在多個行業場景中實現規模化落地。

在大模型訓練領域,某頭部廠商利用MaxFrame框架對千萬級視頻文件進行抽幀預處理。藉助平台的海量彈性計算能力,任務在幾十小時內順利完成,相比原有方案效率提升數倍。整個過程無需搭建獨立集羣,開發人員通過Notebook交互式環境快速調試腳本,並通過自定義鏡像確保本地與生產環境一致性,極大提升了研發效率。

在自動駕駛場景中,某汽車製造商需處理量產車與採集車回傳的ROS Bag文件,包含攝像頭、雷達、GPS等多源異構數據。通過MaxCompute的彈性能力,可在車輛返回後幾分鐘內拉起數十萬CU資源完成解析,並將結構化結果寫入明細表供後續分析使用。整個流程通過DataWorks編排,實現從數據接入、清洗標註到模型訓練的端到端自動化。

此外,在金融、醫療、電商等行業,AI Function已被廣泛用於合同信息抽取、病歷結構化、用户評論情感分析等任務。以往需要數週開發週期的NLP應用,如今通過幾行SQL即可實現,大幅降低了AI應用門檻。

未來展望:走向更智能的數據平台

站在十五週年的新起點,MaxCompute 不僅要成為企業最可靠的數據底座,更要成為驅動智能決策的核心引擎。從最初的離線數倉,到今天的AI原生數據倉庫,MaxCompute的每一次進化,都源於對技術趨勢的深刻洞察和對企業需求的精準把握。當數據與智能真正融為一體,每一個企業都將擁有前所未有的能力,去發現價值、創造價值、放大價值。

這場變革,正在發生。

user avatar rivers_chaitin 头像 daimajiangxin 头像
点赞 2 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.