阿里雲大數據AI 博客

Jan 09 2026

阿里雲大數據AI - 一套底座支撐多場景：高德地圖基於 Paimon + StarRocks 軌跡服務實踐

作者：趙宇(司忱)/數據開發工程師導讀：本文整理自高德數據開發工程師、趙宇在StreamingLakehouseMeetup上的分享。聚焦高德地圖軌跡服務在實時湖倉方向的落地實踐。面對軌跡數據“高實時、高併發、長週期存儲”的典型特徵，高德團隊以訪問跨度為依據完成熱/温/冷分層，並以ApachePaimon+StarRocks構建統一的數據底座，支撐軌跡數據的近實時寫入與高性能查詢。

阿里雲 , starrocks , paimon

Jan 07 2026

阿里雲大數據AI - 面向 Interleaved Thinking 的大模型 Agent 蒸餾實踐

前言大語言模型Agent在複雜任務中展現出卓越能力。相比傳統線性推理鏈(Chain-of-Thought)，"交錯思維"(InterleavedThinking)通過"思考→行動→觀察→再思考"的閉環機制，有效解決了狀態漂移和上下文遺忘問題，顯著提升多輪交互的連貫性與策略調整能力。阿里雲PAI團隊結合交錯思維的推理機制，構建了涵蓋多輪交互的訓練數據集，訓練更符合交錯思維特性的輕量級Agent模

阿里雲 , 人工智能

Jan 07 2026

阿里雲大數據AI - 迅雷基於阿里雲 EMR Serverless Spark 實現數倉資源效率與業務提升

spark , 阿里雲

Jan 04 2026

阿里雲大數據AI - 基於DataWorks Notebook+MaxCompute MaxFrame一站式構建AI數據處理Pipeline

在大模型與 AI 應用快速落地的今天，企業對“數據準備 → 數據處理 → 模型訓練”的端到端效率提出了更高要求。阿里雲數據開發治理平台 DataWorks聯合雲原生大數據計算服務MaxCompute，為您提供一套開箱即用、安全合規、彈性可擴展的 AI 數據開發環境，特別適合需要處理 TB/PB 級結構化、半/非結構化數據的 AI 工程師、數據科學家與算法團隊。本文將帶您快速瞭解如何基於阿里雲兩大

阿里雲

Jan 04 2026

阿里雲大數據AI - StarRocks + Paimon：構建 Lakehouse Native 數據引擎

繼去年StreamingLakehouseMeetup順利舉辦後，StreamingLakehouseMeetup·OnlineEP.2｜Paimon×StarRocks共話實時湖倉於12月10日重磅迴歸。在這場直播中，阿里雲計算平台事業部開發工程師張慶玉聚焦StarRocks與ApachePaimon的深度集成實踐，探討如何構建真正意義上的LakehouseNative數據引擎。在數據湖已成為

阿里雲 , paimon

Dec 30 2025

阿里雲大數據AI - 真實案例覆盤：從“三套煙囱”到 All in ES，這家企業如何砍掉 40% 運維成本？

文/阿里雲AI搜索產研團隊在做搜索技術架構諮詢時，我們經常聽到一句話：“我也知道業務系統複雜，但不知道怎麼簡化架構部署?” 今天，我們想聊聊“某知名互聯網泛娛樂視覺平台A”（以下簡稱A公司）的搜索架構演進故事。他們的雲上遷移經歷，是無數正在為“技術棧碎片化”與"AI搜索架構改造"頭疼的企業的真實寫照。第一階段：為了業務的“快”，他們建了三根煙囱一年前，A公司的技術架構負責人老李面臨着極大的壓

elasticsearch , 搜索 , 阿里雲 , 人工智能

Dec 26 2025

阿里雲大數據AI - 阿里雲 PAI 團隊獲邀在 ChinaSys 2025 分享動態數據調度方案 Skrull

第 29 屆中國計算機系統研討會（ChinaSys 2025）將於 12 月 27 日- 12 月 28 日，在吉林長春舉辦。ChinaSys 是中國計算機系統及相關領域的學術團體，宗旨是為本領域的研究者和從業者提供資源共享、交換思想和會晤的平台，交流和探討系統領域的最新研究成果，促進中國計算機系統行業的發展。阿里雲大數據 AI 團隊將深度參與ChinaSys 2025。 PAI 團隊將在 C

阿里雲 , 人工智能

Dec 25 2025

阿里雲大數據AI - Apache Paimon 多模態數據湖實踐：從結構化到非結構化的技術演進

在近期的 Streaming Lakehouse Meetup · Online EP.2｜Paimon × StarRocks 共話實時湖倉直播中，Apache Paimon PMC 成員/阿里雲數據湖資深工程師葉俊豪帶來了關於 Paimon 多模態數據湖的深度技術分享。隨着大模型訓練對數據規模與多樣性的要求不斷提升，傳統以批處理為中心的數據湖架構已難以滿足 AI 工作負載對實時性、靈活性和

阿里雲 , paimon , 數據湖

Dec 24 2025

阿里雲大數據AI - 【NeurIPS2025】阿里雲 PAI 團隊動態數據調度方案 Skrull 入選

2025年12月，第39屆神經信息處理系統大會（NeurIPS：Annual Conference on Neural Information Processing System）在美國加利福尼亞州聖迭戈順利召開。NeurIPS是機器學習領域的頂級會議，與ICML、ICLR並稱為機器學習領域三大會議。阿里雲 PAI 團隊與中國科學院大學前沿交叉科學學院等單位合作的研究成果——輕量級動態數據調度方案

阿里雲 , 人工智能

Dec 24 2025

阿里雲大數據AI - 1TB數據，ES卻收到了2TB？揪出那個客户端中的“隱形復讀機”

你是否經歷過這樣的“靈異事件”：業務監控顯示，你的日誌服務每秒只寫入了 50MB 的數據，全天累計寫入 1TB。但在雲廠商的賬單，或者內網交換機的監控上，流量卻高達 100MB/s，全天消耗了 2TB 的帶寬。網卡經常莫名其妙被打滿，造成正常的業務請求卡頓、丟包。排查了一圈：不是 TCP 重傳（Retransmission 正常）。不是 SSL 握手膨脹（HTTPS 開銷沒那麼大

elasticsearch , 監控 , 阿里雲

Dec 23 2025

阿里雲大數據AI - DataWorks 又又又升級了，這次我們通過 Arrow 列存格式讓數據同步速度提升10倍！

引言在大數據時代，數據集成作為企業數據流轉的核心樞紐，承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長，傳統的行存同步方式在面對大規模列存數據處理時，逐漸顯露出性能瓶頸。為解決這一挑戰，，DataWorks數據集成推出基於Apache Arrow列存格式的高性能同步能力，實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝、列式內存標準Apache Arrow，DataWo

大數據 , 阿里雲

Dec 22 2025

阿里雲大數據AI - Hologres Dynamic Table：高效增量刷新，構建實時統一數倉的核心利器

在企業數據架構逐步走向實時化與一體化的過程中，如何高效處理“大量歷史+少量新增”的業務數據，已成為建設統一數倉與實時數倉時繞不開的關鍵挑戰。傳統全量刷新方式在面對億級歷史數據時，往往面臨刷新延遲高、計算成本大、鏈路複雜等問題。為了解決這些痛點，業界逐漸形成了一種新的數據處理範式——DynamicTable（動態表），它通過聲明式語法自動維護物化結果，並支持高效的增量刷新能力。阿里雲Hologr

阿里雲

Dec 19 2025

阿里雲大數據AI - OmniThoughtV：面向多模態深度思考的高質量數據蒸餾

作者：嶽元浩(顧城)、汪誠愚(熊兮)、黃俊(臨在) 背景近年來，多模態人工智能技術迅猛發展，推動了視覺、語言、語音等多種模態信息的深度融合與理解。尤其在多模態深度推理任務中， GPT-4V 等前沿模型通過模擬人類的鏈式思維過程，展現出強大的跨模態推理能力。然而，當前的多模態大模型在實際應用中仍面臨兩個關鍵問題：首先，能力較強的SOTA模型往往參數規模龐大、計算資源消耗高，導致部署成本高昂，難以在

阿里雲 , 人工智能

Dec 17 2025

阿里雲大數據AI - 在 DataWorks 中一鍵部署大模型，即刻用於數據集成和數據開發

在AI應用快速落地的今天，越來越多企業希望將大模型能力融入數據處理流程——無論是文本分析、智能摘要，還是RAG知識庫構建。但傳統模式下，模型部署依賴專業MLOps團隊，需自行搭建推理環境、配置GPU資源、維護服務穩定性，門檻高、週期長、成本重。現在，阿里雲DataWorks發佈大模型服務能力，基於Serverless資源組，支持用户一鍵部署主流大模型，並可在數據集成和數據開發任務中直接調用模型A

阿里雲 , 大模型

Dec 11 2025

阿里雲大數據AI - Forrester發佈流式數據平台報告：Ververica首次躋身領導者行列，實時AI能力獲權威認可

近日，全球權威研究機構Forrester正式發佈《The Forrester Wave™: Streaming Data Platforms, Q4 2025》報告（後簡稱“報告”），Ververica首次進入領導者象限，成為該年度報告中最受關注的"新晉領導者"。這一突破性成就標誌着Ververica在全球流式數據平台領域的技術實力和市場影響力獲得行業認可，其在實時AI領域的創新能力尤為突出。

阿里雲 , flink

Dec 11 2025

阿里雲大數據AI - Fusion 引擎賦能：七貓如何使用阿里雲 EMR Serverless Spark 實現數倉加速

一、背景介紹七貓公司介紹及業務規模七貓是一家深耕文化娛樂行業的互聯網企業，總部坐落在上海市前灘中心。七貓旗下原創文學網站七貓中文網於2017年5月正式上線，專注為原創作者提供創作指導、版權運營等全方位一體化服務。七貓拳頭產品七貓免費小説App於2018年8月正式上線，專注為用户提供正版、免費、優質的網絡文學內容閲讀服務。現平台用户超6億，規模位列數字閲讀行業前列。原有大數據

spark , 阿里雲

Dec 01 2025

阿里雲大數據AI - EMR AI助手開啓公測：用AI重塑大數據運維，更簡單、更智能

在大數據技術深度融入企業核心業務的今天，EMR（E-MapReduce）集羣的規模與複雜性持續攀升，運維挑戰日益凸顯。複雜的大數據集羣運維一直是技術團隊的痛點——組件多、依賴關係複雜，故障定位困難，高頻變更帶來的穩定性風險，以及對專業運維人員的高度依賴，這些問題無不在考驗着企業的技術管理能力。為破解這一難題，阿里雲正式推出 EMR AI助手（EMR Agent） ——一款專為大數據場景打造的智能

阿里雲 , 人工智能

Nov 28 2025

阿里雲大數據AI - 朝陽永續基於阿里雲 Milvus 構建金融智能投研產品“AI 小二”

一、客户簡介朝陽永續是先進的金融數據與智能服務提供商，致力於為基金管理公司、證券研究機構及專業投資者提供高質量、精準和全面的數據分析與決策支持工具。依託多年深耕金融行業的數據積累與投研經驗，朝陽永續推出其核心產品——AI小二，一款融合大模型技術的AI金融投研智能體。 AI小二基於生成式AI能力，結合阿里雲向量檢索服務Milvus版（簡稱阿里雲Milvus），打造了集“智能問答、極速研究、深度分析

milvus , 向量 , 阿里雲 , 數據庫

Nov 25 2025

阿里雲大數據AI - PAI Physical AI Notebook詳解4：基於仿真的GR00T-N1.5模型微調

在前3期Physical AI詳解系列中，我們詳細解讀了數據採集、擴增、增強的全過程，以及導航模型（X-Mobility）微調訓練的全過程。在本期，我們將針對更復雜的VLA模型（以GR00T-N1.5為例）進行微調，同樣需要經過人工演示、數據擴增、模仿學習、在環驗證這幾個步驟。但是，相比前例中的BC-RNN和X-Mobility模型，GR00T-N1.5是一個更復雜的模型，需要更大規模

阿里雲 , 人工智能

Nov 24 2025

阿里雲大數據AI - 阿里雲 Elasticsearch 的 AI 革新：高性能、低成本、智能化的搜索新紀元

數據爆炸、多模態融合、實時智能推理的浪潮，正在重塑企業的搜索需求——它們需要的不僅是“找到信息”，還要更快、更準、更智能地理解和響應複雜的業務場景。一、AI搜索的背景與趨勢在AIGC技術席捲全球的當下，搜索技術正迎來前所未有的升級窗口。電商平台通過多模態搜索精準理解用户需求，酒旅行業借力智能體Agent進行行程規劃與住宿推薦，傳統企業則利用獨有知識庫和RAG技術賦能售前售後服務——搜索能力的智

搜索 , 阿里雲 , 人工智能

Nov 20 2025

阿里雲大數據AI - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

作者：曹霖本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開，逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇，基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。注：客户為東南亞頭部科技集團，文中用GoTerra表示。一、項目背景在全球化和數字化加速的浪潮下，越來越多的企業出於成本優化、合規要求和業務協同等原因，考慮

大數據 , 阿里雲 , SQL

Nov 19 2025

阿里雲大數據AI - EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破

在今年雲棲大會上，EMRServerlessStella1.0正式發佈，這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了Stella在存算分離架構、Lakehouse場景以及全文檢索等三大核心場景下的深度優化經驗，為業界提供了大規模OLAP系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。

阿里雲 , starrocks

Nov 19 2025

阿里雲大數據AI - PAI Physical AI Notebook詳解3：基於仿真的導航模型訓練

在前兩期，我們已經分別基於仿真環境和世界模型進行了針對Manipulation（動作控制）模型的訓練數據合成與模仿學習。我們來回顧下整個過程：針對具身智能場景，除了Manipution，Navigation（導航）也是一類非常重要的控制模型，本期我們就來詳細解讀基於仿真環境的導航模型訓練的全過程。和動作控制模型類似，對導航模型的訓練也可以通過人工演示、數據擴增、數據增強、模仿學習和模型

阿里雲 , 人工智能 , 模型

Nov 17 2025

阿里雲大數據AI - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

演講人：宋曉峯洋錢罐大數據運維總監十年破壁：從數據築基到智能生態的全鏈路實踐一、數據築基——自建大數據集羣的攻堅與突破背景介紹瓴嶽科技（Fintopia）是以大數據和人工智能為基礎的數字科技集團，為全球用户提供卓越的金融體驗。2015年成立至今，瓴嶽科技始終聚焦消費金融，業務遍佈中國大陸、東南亞、拉丁美洲和非洲等；集團旗下擁有洋錢罐、Easycash等知名品牌，截至2025年，服務全球金融

spark , 大數據 , 阿里雲 , starrocks

阿里雲大數據AI 博客

博客 / 列表

阿里雲大數據AI - 一套底座支撐多場景：高德地圖基於 Paimon + StarRocks 軌跡服務實踐

阿里雲大數據AI - 面向 Interleaved Thinking 的大模型 Agent 蒸餾實踐

阿里雲大數據AI - 迅雷基於阿里雲 EMR Serverless Spark 實現數倉資源效率與業務提升

阿里雲大數據AI - 基於DataWorks Notebook+MaxCompute MaxFrame一站式構建AI數據處理Pipeline

阿里雲大數據AI - StarRocks + Paimon：構建 Lakehouse Native 數據引擎

阿里雲大數據AI - 真實案例覆盤：從“三套煙囱”到 All in ES，這家企業如何砍掉 40% 運維成本？

阿里雲大數據AI - 阿里雲 PAI 團隊獲邀在 ChinaSys 2025 分享動態數據調度方案 Skrull

阿里雲大數據AI - Apache Paimon 多模態數據湖實踐：從結構化到非結構化的技術演進

阿里雲大數據AI - 【NeurIPS2025】阿里雲 PAI 團隊動態數據調度方案 Skrull 入選

阿里雲大數據AI - 1TB數據，ES卻收到了2TB？揪出那個客户端中的“隱形復讀機”

阿里雲大數據AI - DataWorks 又又又升級了，這次我們通過 Arrow 列存格式讓數據同步速度提升10倍！

阿里雲大數據AI - Hologres Dynamic Table：高效增量刷新，構建實時統一數倉的核心利器

阿里雲大數據AI - OmniThoughtV：面向多模態深度思考的高質量數據蒸餾

阿里雲大數據AI - 在 DataWorks 中一鍵部署大模型，即刻用於數據集成和數據開發

阿里雲大數據AI - Forrester發佈流式數據平台報告：Ververica首次躋身領導者行列，實時AI能力獲權威認可

阿里雲大數據AI - Fusion 引擎賦能：七貓如何使用阿里雲 EMR Serverless Spark 實現數倉加速

阿里雲大數據AI - EMR AI助手開啓公測：用AI重塑大數據運維，更簡單、更智能

阿里雲大數據AI - 朝陽永續基於阿里雲 Milvus 構建金融智能投研產品“AI 小二”

阿里雲大數據AI - PAI Physical AI Notebook詳解4：基於仿真的GR00T-N1.5模型微調

阿里雲大數據AI - 阿里雲 Elasticsearch 的 AI 革新：高性能、低成本、智能化的搜索新紀元

阿里雲大數據AI - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

阿里雲大數據AI - EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破

阿里雲大數據AI - PAI Physical AI Notebook詳解3：基於仿真的導航模型訓練

阿里雲大數據AI - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

Product

Company

Support

Company

博客 / 列表

阿里雲大數據AI - 一套底座支撐多場景：高德地圖基於 Paimon + StarRocks 軌跡服務實踐

阿里雲大數據AI - 面向 Interleaved Thinking 的大模型 Agent 蒸餾實踐

阿里雲大數據AI - 迅雷基於阿里雲 EMR Serverless Spark 實現數倉資源效率與業務提升

阿里雲大數據AI - 基於DataWorks Notebook+MaxCompute MaxFrame一站式構建AI數據處理Pipeline

阿里雲大數據AI - StarRocks + Paimon： 構建 Lakehouse Native 數據引擎

阿里雲大數據AI - 真實案例覆盤：從“三套煙囱”到 All in ES，這家企業如何砍掉 40% 運維成本？

阿里雲大數據AI - 阿里雲 PAI 團隊獲邀在 ChinaSys 2025 分享動態數據調度方案 Skrull

阿里雲大數據AI - Apache Paimon 多模態數據湖實踐：從結構化到非結構化的技術演進

阿里雲大數據AI - 【NeurIPS2025】阿里雲 PAI 團隊動態數據調度方案 Skrull 入選

阿里雲大數據AI - 1TB數據，ES卻收到了2TB？揪出那個客户端中的“隱形復讀機”

阿里雲大數據AI - DataWorks 又又又升級了，這次我們通過 Arrow 列存格式讓數據同步速度提升10倍！

阿里雲大數據AI - Hologres Dynamic Table：高效增量刷新，構建實時統一數倉的核心利器

阿里雲大數據AI - OmniThoughtV：面向多模態深度思考的高質量數據蒸餾

阿里雲大數據AI - 在 DataWorks 中一鍵部署大模型，即刻用於數據集成和數據開發

阿里雲大數據AI - Forrester發佈流式數據平台報告：Ververica首次躋身領導者行列，實時AI能力獲權威認可

阿里雲大數據AI - Fusion 引擎賦能：七貓如何使用阿里雲 EMR Serverless Spark 實現數倉加速

阿里雲大數據AI - EMR AI助手開啓公測：用AI重塑大數據運維，更簡單、更智能

阿里雲大數據AI - 朝陽永續基於阿里雲 Milvus 構建金融智能投研產品“AI 小二”

阿里雲大數據AI - PAI Physical AI Notebook詳解4：基於仿真的GR00T-N1.5模型微調

阿里雲大數據AI - 阿里雲 Elasticsearch 的 AI 革新：高性能、低成本、智能化的搜索新紀元

阿里雲大數據AI - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

阿里雲大數據AI - EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破

阿里雲大數據AI - PAI Physical AI Notebook詳解3：基於仿真的導航模型訓練

阿里雲大數據AI - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

阿里雲大數據AI - StarRocks + Paimon：構建 Lakehouse Native 數據引擎