博客 / 列表

阿里雲大數據AI - 阿里雲 PAI 團隊獲邀在 ChinaSys 2025 分享動態數據調度方案 Skrull

第 29 屆中國計算機系統研討會(ChinaSys 2025) 將於 12 月 27 日- 12 月 28 日,在吉林長春舉辦。ChinaSys 是中國計算機系統及相關領域的學術團體,宗旨是為本領域的研究者和從業者提供資源共享、交換思想和會晤的平台,交流和探討系統領域的最新研究成果,促進中國計算機系統行業的發展。 阿里雲大數據 AI 團隊將深度參與ChinaSys 2025。 PAI 團隊將在 C

阿里雲 , 人工智能

阿里雲大數據AI - Apache Paimon 多模態數據湖實踐:從結構化到非結構化的技術演進

在近期的 Streaming Lakehouse Meetup · Online EP.2|Paimon × StarRocks 共話實時湖倉 直播中,Apache Paimon PMC 成員/阿里雲數據湖資深工程師葉俊豪帶來了關於 Paimon 多模態數據湖的深度技術分享。 隨着大模型訓練對數據規模與多樣性的要求不斷提升,傳統以批處理為中心的數據湖架構已難以滿足 AI 工作負載對實時性、靈活性和

阿里雲 , paimon , 數據湖

阿里雲大數據AI - 【NeurIPS2025】阿里雲 PAI 團隊動態數據調度方案 Skrull 入選

2025年12月,第39屆神經信息處理系統大會(NeurIPS:Annual Conference on Neural Information Processing System)在美國加利福尼亞州聖迭戈順利召開。NeurIPS是機器學習領域的頂級會議,與ICML、ICLR並稱為機器學習領域三大會議。阿里雲 PAI 團隊與中國科學院大學前沿交叉科學學院等單位合作的研究成果——輕量級動態數據調度方案

阿里雲 , 人工智能

阿里雲大數據AI - 1TB數據,ES卻收到了2TB?揪出那個客户端中的“隱形復讀機”

你是否經歷過這樣的“靈異事件”: 業務監控顯示,你的日誌服務每秒只寫入了 50MB 的數據,全天累計寫入 1TB。 但在雲廠商的賬單,或者內網交換機的監控上,流量卻高達 100MB/s,全天消耗了 2TB 的帶寬。 網卡經常莫名其妙被打滿,造成正常的業務請求卡頓、丟包。 排查了一圈: 不是 TCP 重傳(Retransmission 正常)。 不是 SSL 握手膨脹(HTTPS 開銷沒那麼大

elasticsearch , 監控 , 阿里雲

阿里雲大數據AI - DataWorks 又又又升級了,這次我們通過 Arrow 列存格式讓數據同步速度提升10倍!

引言 在大數據時代,數據集成作為企業數據流轉的核心樞紐,承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長,傳統的行存同步方式在面對大規模列存數據處理時,逐漸顯露出性能瓶頸。 為解決這一挑戰,,DataWorks數據集成推出基於Apache Arrow列存格式的高性能同步能力,實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝、列式內存標準Apache Arrow,DataWo

大數據 , 阿里雲

阿里雲大數據AI - Hologres Dynamic Table:高效增量刷新,構建實時統一數倉的核心利器

在企業數據架構逐步走向實時化與一體化的過程中,如何高效處理“大量歷史+少量新增”的業務數據,已成為建設統一數倉與實時數倉時繞不開的關鍵挑戰。 傳統全量刷新方式在面對億級歷史數據時,往往面臨刷新延遲高、計算成本大、鏈路複雜等問題。為了解決這些痛點,業界逐漸形成了一種新的數據處理範式——DynamicTable(動態表),它通過聲明式語法自動維護物化結果,並支持高效的增量刷新能力。 阿里雲Hologr

阿里雲

阿里雲大數據AI - OmniThoughtV:面向多模態深度思考的高質量數據蒸餾

作者:嶽元浩(顧城)、汪誠愚(熊兮)、黃俊(臨在) 背景 近年來,多模態人工智能技術迅猛發展,推動了視覺、語言、語音等多種模態信息的深度融合與理解。尤其在多模態深度推理任務中, GPT-4V 等前沿模型通過模擬人類的鏈式思維過程,展現出強大的跨模態推理能力。然而,當前的多模態大模型在實際應用中仍面臨兩個關鍵問題:首先,能力較強的SOTA模型往往參數規模龐大、計算資源消耗高,導致部署成本高昂,難以在

阿里雲 , 人工智能

阿里雲大數據AI - 在 DataWorks 中一鍵部署大模型,即刻用於數據集成和數據開發

在AI應用快速落地的今天,越來越多企業希望將大模型能力融入數據處理流程——無論是文本分析、智能摘要,還是RAG知識庫構建。但傳統模式下,模型部署依賴專業MLOps團隊,需自行搭建推理環境、配置GPU資源、維護服務穩定性,門檻高、週期長、成本重。 現在,阿里雲DataWorks發佈大模型服務能力,基於Serverless資源組,支持用户一鍵部署主流大模型,並可在數據集成和數據開發任務中直接調用模型A

阿里雲 , 大模型

阿里雲大數據AI - Forrester發佈流式數據平台報告:Ververica首次躋身領導者行列,實時AI能力獲權威認可

近日,全球權威研究機構Forrester正式發佈《The Forrester Wave™: Streaming Data Platforms, Q4 2025》報告(後簡稱“報告”),Ververica首次進入領導者象限,成為該年度報告中最受關注的"新晉領導者"。這一突破性成就標誌着Ververica在全球流式數據平台領域的技術實力和市場影響力獲得行業認可,其在實時AI領域的創新能力尤為突出。

阿里雲 , flink

阿里雲大數據AI - Fusion 引擎賦能:七貓如何使用阿里雲 EMR Serverless Spark 實現數倉加速

一、背景介紹 七貓公司介紹及業務規模 七貓是一家深耕文化娛樂行業的互聯網企業,總部坐落在上海市前灘中心。七貓旗下原創文學網站七貓中文網於2017年5月正式上線,專注為原創作者提供創作指導、版權運營等全方位一體化服務。七貓拳頭產品七貓免費小説App於2018年8月正式上線,專注為用户提供正版、免費、優質的網絡文學內容閲讀服務。現平台用户超6億,規模位列數字閲讀行業前列。 原有大數據

spark , 阿里雲

阿里雲大數據AI - EMR AI助手開啓公測:用AI重塑大數據運維,更簡單、更智能

在大數據技術深度融入企業核心業務的今天,EMR(E-MapReduce)集羣的規模與複雜性持續攀升,運維挑戰日益凸顯。複雜的大數據集羣運維一直是技術團隊的痛點——組件多、依賴關係複雜,故障定位困難,高頻變更帶來的穩定性風險,以及對專業運維人員的高度依賴,這些問題無不在考驗着企業的技術管理能力。 為破解這一難題,阿里雲正式推出 EMR AI助手(EMR Agent) ——一款專為大數據場景打造的智能

阿里雲 , 人工智能

阿里雲大數據AI - 朝陽永續基於阿里雲 Milvus 構建金融智能投研產品“AI 小二”

一、客户簡介 朝陽永續是先進的金融數據與智能服務提供商,致力於為基金管理公司、證券研究機構及專業投資者提供高質量、精準和全面的數據分析與決策支持工具。依託多年深耕金融行業的數據積累與投研經驗,朝陽永續推出其核心產品——AI小二,一款融合大模型技術的AI金融投研智能體。 AI小二基於生成式AI能力,結合阿里雲向量檢索服務Milvus版(簡稱阿里雲Milvus),打造了集“智能問答、極速研究、深度分析

milvus , 向量 , 阿里雲 , 數據庫

阿里雲大數據AI - PAI Physical AI Notebook詳解4:基於仿真的GR00T-N1.5模型微調

在前3期Physical AI詳解系列中,我們詳細解讀了數據採集、擴增、增強的全過程,以及導航模型(X-Mobility)微調訓練的全過程。 在本期,我們將針對更復雜的VLA模型(以GR00T-N1.5為例)進行微調,同樣需要經過人工演示、數據擴增、模仿學習、在環驗證這幾個步驟。 但是,相比前例中的BC-RNN和X-Mobility模型,GR00T-N1.5是一個更復雜的模型,需要更大規模

阿里雲 , 人工智能

阿里雲大數據AI - 阿里雲 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新紀元

數據爆炸、多模態融合、實時智能推理的浪潮,正在重塑企業的搜索需求——它們需要的不僅是“找到信息”,還要更快、更準、更智能地理解和響應複雜的業務場景。 一、AI搜索的背景與趨勢 在AIGC技術席捲全球的當下,搜索技術正迎來前所未有的升級窗口。電商平台通過多模態搜索精準理解用户需求,酒旅行業借力智能體Agent進行行程規劃與住宿推薦,傳統企業則利用獨有知識庫和RAG技術賦能售前售後服務——搜索能力的智

搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速的浪潮下,越來越多的企業出於成本優化、合規要求和業務協同等原因,考慮

大數據 , 阿里雲 , SQL

阿里雲大數據AI - EMR Serverless Stella 1.0 技術分享:StarRocks企業級版本內核重大突破

在今年雲棲大會上,EMRServerlessStella1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了Stella在存算分離架構、Lakehouse場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模OLAP系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。

阿里雲 , starrocks

阿里雲大數據AI - PAI Physical AI Notebook詳解3:基於仿真的導航模型訓練

在前兩期,我們已經分別基於仿真環境和世界模型進行了針對Manipulation(動作控制)模型的訓練數據合成與模仿學習。我們來回顧下整個過程: 針對具身智能場景,除了Manipution,Navigation(導航)也是一類非常重要的控制模型,本期我們就來詳細解讀基於仿真環境的導航模型訓練的全過程。 和動作控制模型類似,對導航模型的訓練也可以通過人工演示、數據擴增、數據增強、模仿學習和模型

阿里雲 , 人工智能 , 模型

阿里雲大數據AI - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycash等知名品牌,截至2025年,服務全球金融

spark , 大數據 , 阿里雲 , starrocks

阿里雲大數據AI - 【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra作為東南亞互聯網頭部企業,其業務生態覆蓋網約車、電商

數據倉庫 , 阿里雲

阿里雲大數據AI - DataWorks Agent 正式發佈!對話即開發,AI Agent 重新定義數據生產力

近日,阿里雲DataWorksAgent正式發佈,推出面向數據開發治理的全新智能範式——用自然語言對話驅動全鏈路數據開發,讓“你説,我做”成為現實。 現在,只需輸入一句描述,DataWorksAgent就能自動完成從需求理解、任務構建、代碼生成到調度發佈的全流程操作,真正實現“對話即開發”。 核心功能發佈:兩大場景,全面提效 場景一:數據開發Agent——一句話生成可上線ETL任務 還在手

ai開發 , 阿里雲 , 人工智能

阿里雲大數據AI - PAI Physical AI Notebook詳解2:基於Cosmos世界模型的操作動作數據擴增與模仿學習

在上期Notebook詳解系列中,我們介紹了《基於Isaac仿真的操作動作數據擴增與模仿學習》,本期我們將介紹一套類似的方案,同樣可以完成人工演示、數據擴增、模仿學習、模型測評這幾個環節,但完全使用Cosmos世界模型作為內核。 相比基於Isaac仿真的方案,使用Cosmos世界模型的方案具有以下特點: 人工演示、數據擴增環節無需仿真算力(RTCore),全流程使用AI算力(CU

阿里雲 , 人工智能

阿里雲大數據AI - EMR StarRocks Stella內核正式發佈,登頂TPC榜單全球第一

2025年雲棲大會,EMRServerlessStarRocks重磅發佈全新企業級版本內核Stella(StarRocksEfficientandLightening-fastLakehouse),完全兼容開源StarRocks,為用户提供企業級的產品功能、卓越的性能及穩定性保障。 EMRServerlessStarRocks在權威TPC基準測試中創造佳績:在“數據分析”性能測試TPC-H榜單中,

阿里雲 , 人工智能 , starrocks , 數據分析

阿里雲大數據AI - 為什麼 OpenSearch 向量檢索能提速 13 倍

在當今的數字化時代,以音視頻等多媒體內容為代表的非結構化數據呈現出爆炸式增長。這類數據無法簡單地用傳統數據庫中的行列數據來表示,因此向量檢索技術應運而生。非結構化數據通常被轉換為向量表示,並存儲在向量數據庫中。這種向量化模型能夠提取並捕捉到數據中的特徵,在多維的向量空間中進行有效表示。 一個形象的例子是:embedding(king)−embedding(man)+embedding(wom

向量 , 阿里雲 , 檢索系統

阿里雲大數據AI - 讓 ETL 更懂語義:DataWorks 支持數據集成 AI 輔助處理能力

在生成式AI浪潮下,數據不再只是“被搬運的原料”,更應是“可理解、可推理、可挖掘價值”的智能資產。然而,傳統ETL(Extract-Transform-Load)流程仍停留在結構化數據處理層面,面對海量文本、日誌、反饋等非結構化數據時,往往依賴人工標註或複雜開發鏈路,效率低、成本高、響應慢。 為此,阿里雲大數據開發治理平台DataWorks數據集成全新智能化升級,以“AI釋放數據價值”為核心,正式

datawhale , 阿里雲 , 人工智能