博客 / 列表

阿里雲大數據AI技術 - DataWorks 又又又升級了,這次我們通過 Arrow 列存格式讓數據同步速度提升10倍!

引言 在大數據時代,數據集成作為企業數據流轉的核心樞紐,承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長,傳統的行存同步方式在面對大規模列存數據處理時,逐漸顯露出性能瓶頸。 為解決這一挑戰,DataWorks數據集成推出基於ApacheArrow列存格式的高性能同步能力,實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝

大數據 , 數據集成 , 阿里雲 , DataWorks , 人工智能 , 數據分析

阿里雲大數據AI技術 - 在 DataWorks 中一鍵部署大模型,即刻用於數據集成和數據開發

在AI應用快速落地的今天,越來越多企業希望將大模型能力融入數據處理流程——無論是文本分析、智能摘要,還是RAG知識庫構建。但傳統模式下,模型部署依賴專業MLOps團隊,需自行搭建推理環境、配置GPU資源、維護服務穩定性,門檻高、週期長、成本重。 現在,阿里雲DataWorks發佈大模型服務能力,基於Serverless資源組,支持用户一鍵部署主流大模型,並可在數據集成和數據

AI , 阿里雲 , DataWorks , 人工智能 , 數據分析 , 大模型

阿里雲大數據AI技術 - 活動報名 | Apache Spark Meetup · 上海站,助力企業構建高效數據平台

在大數據技術飛速發展的今天,如何在性能與成本效益之間實現平衡,始終是企業構建數據平台的核心挑戰之一。阿里雲 EMR Serverless Spark 作為一款面向 Data+AI 的高性能 Lakehouse 產品,憑藉其內置的 Fusion 2.0(企業級 Spark 內核),為企業提供了一站式的企業級數據平台服務方案。 2025年9月,EMR Serverless Sp

spark , meetup , 大數據 , 阿里雲

阿里雲大數據AI技術 - 一行代碼,讓Elasticsearch 集羣瞬間雪崩——5000W 數據壓測下的性能避坑全攻略

作為一名長期與Elasticsearch打交道的引擎研發,我見過太多集羣因為一個看似無害的wildcard模糊查詢而瞬間崩潰。 許多開發者繼承了SQLLIKE %...%的思維習慣,直接把它搬到ES中——在小數據量時沒什麼大礙,但當文檔量上億時,它會變成拖垮集羣的性能黑洞: 輕則:錯用字段類型,查不準結果,浪費存儲 重則:暴力掃描,CPU瞬間打滿,集

elasticsearch , 阿里雲 , 人工智能 , 數據分析

阿里雲大數據AI技術 - MaxCompute SQL AI:讓 SQL 成為你的 AI 語言

MaxCompute SQL AI 全新上線,一句SQL就能用上大模型,零門檻讓數據分析師秒變AI高手。 在大模型能力飛速進化、推理成本持續下降的今天,AI 正從“可選項”變為大數據處理流水線中的“必選項”。越來越多的場景——無論是文本摘要、實體抽取,還是多模態的圖像識別、金融風控中的行為分析——都開始用模型推理替代傳統的規則邏輯,實現更智能、更精準的數據

MaxCompute , 大數據 , 數據倉庫 , AI , 阿里雲 , SQL

阿里雲大數據AI技術 - 【新模型速遞】PAI-Model Gallery雲上一鍵部署DeepSeek-V3.2模型

模型介紹 12月1日晚,DeepSeek又開源了兩款新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,在推理能力上全球領先。 兩款模型有着不同的定位。DeepSeek-V3.2的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用智能體任務場景。9月底DeepSeek發佈了實驗版V3.2-Exp,此次是正式版更新。在公開推

機器學習 , 模型推理 , deepseek , 阿里雲 , 人工智能 , PAI

阿里雲大數據AI技術 - PAI Physical AI Notebook詳解4:基於仿真的GR00T-N1.5模型微調

在前3期PhysicalAI詳解系列中,我們詳細解讀了數據採集、擴增、增強的全過程,以及導航模型(X-Mobility)微調訓練的全過程。 在本期,我們將針對更復雜的VLA模型(以GR00T-N1.5為例)進行微調,同樣需要經過人工演示、數據擴增、模仿學習、在環驗證這幾個步驟。 但是,相比前例中的BC-RNN和X-Mobility模型,GR00T-N1.5是一

機器學習 , 阿里雲 , 人工智能 , 模型訓練 , PAI

阿里雲大數據AI技術 - 基於Hologres構建多模態AI數據分析與檢索系統

在數據驅動時代,非結構化數據(文本、圖像、音視頻、日誌等)與結構化、半結構化數據(JSON)共同構成企業的核心數據資產。其中,非結構化數據以更原始、多元的形態藴含着海量的業務洞察(如用户反饋、合同條款、產品缺陷圖像),Hologres4.0以“AI時代的一站式多模態分析平台”為核心理念,全面展示了Hologres在結構化、半結構化與非結構化數據分析能力上的重大突破,發佈全新向量索

多模態分析 , AI , 人工智能 , 數據分析 , 向量數據庫 , Hologres

阿里雲大數據AI技術 - 阿里雲 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新紀元

數據爆炸、多模態融合、實時智能推理的浪潮,正在重塑企業的搜索需求——它們需要的不僅是“找到信息”,還要更快、更準、更智能地理解和響應複雜的業務場景。 一、AI搜索的背景與趨勢 在AIGC技術席捲全球的當下,搜索技術正迎來前所未有的升級窗口。電商平台通過多模態搜索精準理解用户需求,酒旅行業借力智能體Agent進行行程規劃與住宿推薦,傳統企業則利用獨有知

elasticsearch , 數據挖掘 , 搜索 , 阿里雲 , 人工智能 , 檢索

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速

MaxCompute , 大數據 , 數據倉庫 , 數據遷移 , 阿里雲 , SQL

阿里雲大數據AI技術 - EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破

在今年雲棲大會上,EMRServerlessStella1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了Stella在存算分離架構、Lakehouse場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模OLAP系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的

大數據 , 數據倉庫 , 阿里雲 , Lakehouse , starrocks , Stella , olap

阿里雲大數據AI技術 - 基於 Hologres 構建智能駕駛圖像高性能分析系統

隨着人工智能技術的深入發展,企業對數據的利用已不再侷限於傳統的結構化數據分析。越來越多的行業開始依賴多模態數據進行智能決策,涵蓋商品推薦、駕駛行為分析、金融風控、教育個性化等多個場景。這些場景普遍具備一個共同特徵:數據形態多樣、分析需求複雜、檢索方式多元。Hologres 4.0的整體架構圍繞“多模態分析檢索 all-in-one”設計,實現“一份數據、一份計算、多模分析”的一站

多模態分析 , 人工智能 , 數據分析 , SQL , Hologres

阿里雲大數據AI技術 - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycas

spark , 大數據 , starrocks

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota 策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra 作為東南亞互

MaxCompute , 大數據 , 數據倉庫 , 阿里雲 , 數倉遷移

阿里雲大數據AI技術 - PAI-DLC 支持一鍵提交 DataJuicer 任務,高效進行大規模多模態數據處理

隨着人工智能模型規模擴大和數據複雜度提升,整合多源異構數據實現多模態協同建模,已成為提升模型性能的核心路徑。高效的數據預處理體系需在保證數據質量與多樣性的前提下,突破大規模數據清洗、增強與合成的系統性技術瓶頸,以平衡訓練效能與成本控制。阿里雲人工智能平台PAI分佈式訓練PAI-DLC推出的一項全新任務類型DataJuiceronDLC,旨在為用户帶來開箱即用、高性能、穩定高效的數

機器學習 , 人工智能平台PAI , 阿里雲 , 人工智能 , 模型訓練 , 多模態數據處理