博客 / 列表

阿里雲大數據AI - 阿里雲AI搜索年度發佈:開啓Agent時代,重構搜索新範式

AI搜索年度發佈——AgenticSearch創新、雲原生搜索引擎進化、AI搜索產品融合升級_ 年初大模型技術的爆發式發展,使得傳統用户搜索場景被顛覆,據某權威研究機構數據顯示,超58%的美國用户使用Google時不再點擊搜索結果,傳統搜索流量逐漸轉向AI驅動工具,這一轉變背後將重構用户搜索的交互邏輯、數據形態與技術架構。 9月26日杭州舉行的雲棲大會AI搜索專場上,阿里雲智能集團計算平台事業部A

雲棲大會 , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - Lazada 如何用實時計算 Flink + Hologres 構建實時商品選品平台

本文整理自 Lazada Group EVP 及供應鏈技術負責人陳立羣在 Flink Forward Asia 2025 新加坡實時分析專場的分享。 引言:實時數據驅動,海外電商競爭的新高地 在電商行業,用户行為瞬息萬變,促銷節奏日益緊湊,能否在毫秒級做出數據驅動的決策,已成為決定成敗的關鍵。作為東南亞領先的電商平台,Lazada 面臨着一項巨大挑戰:在六個國家管理數十億商品 SKU,同時為不同市

flink

阿里雲大數據AI - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐:從實時數倉到湖倉一體化的演進之路

摘要: 本文整理自淘寶閃購(餓了麼)大數據架構師王沛斌老師在FlinkForwardAsia2025城市巡迴上海站的分享。 引言 在數字化轉型的浪潮中,企業對實時數據處理的需求日益增長。傳統的實時數倉架構在面對業務快速變化和數據規模爆炸性增長時,逐漸暴露出數據孤島、成本高企、研發效率低下等問題。淘寶閃購(餓了麼)作為阿里巴巴集團重要的本地生活服務平台,在數據架構演進過程中積累了豐富的實踐經驗

阿里雲 , flink

阿里雲大數據AI - Elasticsearch 8.17 智能檢索升級全攻略

Elasticsearch 作為一款強大的搜索與分析引擎,支持傳統檢索、AI 搜索(如語義檢索、RAG、多模態檢索)及智能運維場景,結合阿里雲AI搜索開放平台提供一站式解決方案。 本文介紹了最新發布的 Elasticsearch 8.17 檢索增強型應用在性能和功能上的特性。同時本文介紹了 Elacticsearch 選購指南,幫助用户根據業務需求選擇版本和節點配置,利用容量規劃工具優化資源分配,

搜索

阿里雲大數據AI - MaxCompute聚簇優化推薦功能發佈,單日節省2PB Shuffle、7000+CU!

Shuffle優化利器|聚簇優化推薦 在MaxCompute每日EB級規模的計算場景中,Join、Group By、Window等算子所產生的Shuffle數據流量已佔據整體網絡傳輸的60%以上,成為影響大數據計算成本的核心因素。以阿里內部某業務為例,單日Shuffle數據量高達2 PB,直接消耗7000+ CU資源——這一數字僅是問題的冰山一角。 MaxCompute 哈希聚簇(Hash Clu

hash , shuffle

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

引言 近期,阿里通義千問團隊創新性提出了 GSPO 算法,PAI-ChatLearn 框架第一時間支持並復現了GSPO的強化學習訓練過程,本文將介紹在 PAI 平台復現 GSPO 的最佳實踐。 GSPO 算法介紹 強化學習(Reinforcement Learning, RL)是拓展語言模型、增加其深度推理與問題求解能力的關鍵技術範式。為了持續拓展 RL,首要前提是確保穩定、魯棒的訓練過程。現有的

大數據處理 , 強化學習 , 最佳實踐 , 人工智能 , 模型

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

一、智能駕駛數據預處理的行業挑戰 隨着智能駕駛技術的逐級演進,數據驅動的模型訓練範式對數據預處理環節提出三大挑戰: 數據孤島化:需整合攝像頭、LiDAR、毫米波雷達、V2X通信等多模態數據,傳統ETL工具難以實現高效集成。 任務爆炸式增長:單輛測試車每日產生可達50TB 數據,需支持百萬甚至千萬級任務併發調度與彈性擴容。 開發運維一體化需求:要求數據流水線具備高可用性(99.99% SLA

大數據處理 , 大數據 , 自動駕駛 , 數據庫 , 人工智能

阿里雲大數據AI - Post-Training on PAI (4):模型微調SFT、DPO、GRPO

引言 Post-Training(即模型後訓練)作為大模型落地的重要一環,能顯著優化模型性能,適配特定領域需求。相比於 Pre-Training(即模型預訓練),Post-Training 階段對計算資源和數據資源需求更小,更易迭代,因此備受推崇。 近期,我們將體系化地分享基於阿里雲人工智能平台 PAI 在強化學習、模型蒸餾、數據預處理、SFT等方向的技術實踐,旨在清晰地展現 PAI 在 Post

大數據處理 , 雲計算 , 算法 , 人工智能 , 模型

阿里雲大數據AI - 跨國數倉遷移背後的統一存儲格式創新-Append Delta Table

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第一篇,跨國數倉遷移背後MaxCompute的統一存儲格式創新。 注:客户背景為東南亞頭部科技集團,文中用GoTerra表示 背景 當東南亞頭部科技集團GoTerra決定將其集團數據倉庫從BigQuery遷移至阿里雲MaxCompute時,這一決策背後折射出更深

大數據處理 , 大數據 , 存儲技術 , 數據遷移 , 人工智能

阿里雲大數據AI - 阿里雲 EMR Serverless Spark: 面向 Data+AI 的高性能 Lakehouse 產品

作者:玄橙 - 阿里雲 EMR Serverless Spark 產品專家 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 產品。它為企業提供了一站式的數據平台服務,包括任務開發、調試、調度和運維等,極大地簡化了數據處理和模型訓練的全流程。同時,它100%兼容開源 Spark 生態,能夠無縫集成到客户現有的數據平台。使用 EMR Serverle

spark , 大數據 , 人工智能 , serverless , 數據處理

阿里雲大數據AI - OpenSearch 視頻 RAG 實踐

背景 RAG(Retrieval-Augmented Generation)技術通過結合信息檢索與大模型生成能力,可以有效降低“幻覺率”,提升回答的準確性。目前,RAG 技術已廣泛應用於多個領域,但主要集中於文本數據的處理。隨着視覺語言模型(Vision-Language Models, VLM)和多模態向量模型的快速發展,RAG 的應用邊界正在不斷擴展,逐步從傳統的純文本場景延伸至多模態場景,其

音視頻 , 算法 , 數據庫 , 人工智能 , 視頻處理

阿里雲大數據AI - Post-Training on PAI (2):Ray on PAI,雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架,集成了多個AI庫,擁有豐富的生態系統,包括Ray Tune(超參數調優)、Ray RLlib(強化學習)、Ray Serve(模型部署)、RaySGD 的分佈式運行環境,提供了全面的AI解決方案,使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台,參考 ​​How Does Ray

開發 , 標註 , 數據庫 , 人工智能 , 模型

阿里雲大數據AI - Post-Training on PAI (2):Ray on PAI,雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架,集成了多個AI庫,擁有豐富的生態系統,包括Ray Tune(超參數調優)、Ray RLlib(強化學習)、Ray Serve(模型部署)、RaySGD 的分佈式運行環境,提供了全面的AI解決方案,使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台,參考 ​​How Does Ray

大數據處理 , 開發 , 標註 , 人工智能 , 模型

阿里雲大數據AI - AI搜索 MCP最佳實踐

背景 那些 LLM 不知道的事 嘗試直接詢問LLM“今天天氣如何”時,會發現LLM無法回答——它既不知道“今天”是哪天,也無法獲取地理位置信息。這揭示了LLM的侷限:缺乏與外部工具和實時數據的交互能力。 為解決這一問題,MCP(Model Context Protocol)應運而生。通過標準化協議,MCP使LLM能夠自主調用工具(如天氣API、地理位置服務),並解耦Agent與Tools的開發,顯

大數據 , 搜索 , 人工智能 , 檢索系統 , 數據處理

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

MiniMax-M1 模型是由 MiniMax 公司6月17日全新推出的大語言模型,使用hybrid Mixture-of-Experts (MoE) 架構,並使用了 lightning attention 機制。 MiniMax 公司稱其為世界上第一個開源的大規模混合架構的推理模型。 MiniMax-M1 模型原生支持 1 百萬個 token 的上下文長度, 並且 lightning atten

llm , 大數據處理 , 雲計算 , 人工智能 , 模型

阿里雲大數據AI - 一體系數據平台的進化:基於阿里雲 EMR Serverless Spark的持續演進

作者:億緹希技術(上海)有限公司 馬博、王建春 一、背景介紹 一體系汽配供應鏈平台(以下簡稱一體系),專注提供高品質發動機、變速箱、底盤技術零部件,融匯優質實體資源和創新互聯網科技,為上游品牌商提供高效的下沉渠道,為下游零售商帶來可信賴的產品和服務,讓採購更便捷可靠,實現行業數字化轉型。 隨着企業對實時數據分析、AI 能力和大規模數據處理的需求不斷增長,平台數據量龐大且持續增長、數據呈現半結構

spark , 大數據處理 , 雲計算 , 數據庫 , serverless

阿里雲大數據AI - Fusion引擎賦能:流利説如何用阿里雲Serverless Spark實現數倉計算加速

作者:流利説 Ibson(大數據負責人)/ Bruce(數據工程師) 背景介紹 行業 流利説是領先的科技驅動的教育公司,公司自主研發了領先的英語口語評測、寫作打分引擎和深度自適應學習系統,致力於為用户提供一整套系統性的英語學習解決方案,從聽、説、讀、寫多個維度提升用户的英語水平。 業務特徵 AI 打分:利用大數據和人工智能算法對用户英語口語評測、

spark , 大數據 , 數據庫 , 人工智能 , 數據處理

阿里雲大數據AI - AI 搜索開放平台 x Qwen3:智能搜索全棧解決方案新升級

隨着 AI 技術的飛速發展,搜索已不僅是“查找信息”,更是“創造價值”的核心引擎。阿里雲 AI 搜索開放平台與 Qwen3 模型的深度融合,為企業和開發者提供了從基礎能力到複雜場景的全棧解決方案,讓智能搜索的落地門檻更低、效率更高、體驗更佳。 一、AI 搜索開放平台介紹 阿里雲 AI 搜索開放平台面向企業及開發者提供豐富的 AI 搜索組件化服務,用户可靈活調用多模態數據解析、大語言模型、效果測評等

大數據 , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 立馬耀:通過阿里雲 Serverless Spark 和 Milvus 構建高效向量檢索系統,驅動個性化推薦業務

作者:廈門立馬耀網絡科技有限公司大數據開發工程師 陳宏毅 背景介紹 行業 蟬選是蟬媽媽出品的達人選品服務平台。蟬選秉持“陪伴達人賺到錢”的品牌使命,致力於洞悉達人變現需求和痛點,提供達人選高傭、穩變現、速響應的選品服務。 業務特徵 個性化推薦:利用大數據和人工智能算法,根據用户的興趣和行為提供定製化的產品推薦。 數據驅動:通過分析用户和市場趨勢,優化推薦策略,提升用户滿意度。 精準營

spark , 大數據 , 搜索 , 阿里雲 , serverless

阿里雲大數據AI - 阿里雲 AI 搜索開放平台新功能發佈:新增GTE自部署模型

一、背景與核心價值 隨着企業全球化業務擴展和多語言數據處理需求激增,精準的文本語義理解與向量化能力成為搜索服務的關鍵。阿里雲AI搜索開放平台正式推出GTE多語言通用文本向量模型(iic/gte\_sentence-embedding\_multilingual-base),來源於ModelScope模型庫,並開放自部署能力,助力企業構建更高併發、更低延遲的多語言搜索與分析系統。 二、新增功能詳解:

雲計算 , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 阿里雲 AI 搜索開放平台新功能發佈:大模型聯網能力上線

在數字化轉型的浪潮中,高效、智能的搜索技術正成為企業提升競爭力的關鍵。為了滿足用户對更智能、更精準搜索體驗的需求,阿里雲 AI 搜索開放平台此次新增了大模型聯網能力,通過集成大語言模型(LLM)和聯網搜索技術,為用户提供更智能、更全面的搜索體驗。以下是此次更新的核心功能詳情: 一、大模型聯網能力 提供聯網搜索 API,當私有知識庫無法滿足用户需求時,可拓展互聯網信息,結合大語言模型生成更豐富的

llm , 雲計算 , 搜索 , 阿里雲 , 人工智能

阿里雲大數據AI - 鷹角:EMR Serverless Spark 在《明日方舟》遊戲業務的應用

作者:鷹角網絡高級大數據研發 茅旭輝 背景介紹 鷹角網絡是一家年輕且富有創新的遊戲公司,致力於開發充滿挑戰性和藝術價值的遊戲產品。公司目前涵蓋了遊戲開發、運營和發行的全生命週期業務。隨着業務的擴展,鷹角網絡從單一爆款遊戲發展到多賽道、多平台、全球化的戰略佈局,在數據業務上進行了全面的優化和升級。 從業務上看,以《明日方舟》為代表的長線運營遊戲,具有相對高頻的活動週期和豐富多樣的活動玩法,反映到數據

spark , 大數據 , 數據 , 阿里雲 , serverless

阿里雲大數據AI - 阿里雲 AI 搜索開放平台:從算法到業務——AI 搜索驅動企業智能化升級

——已獲知乎作者【GitHub Daily】授權轉載 目前大模型的強大能力,使其成為一些企業和行業的主要創新驅動力,企業亟需重新審視和調整現有的創新機制,以適應AI技術和大數據的快速發展。目前很多企業已經開始嘗試大模型在業務中進行賦能,但在使用一些大模型時往往因為自身場景的需求不同,導致在應用落地中存在一些場景受限,知識庫不完善等一些痛點。 阿里雲AI搜索,憑藉先進的大模型能力和強大的 RAG 處

大數據 , 搜索 , 算法 , 阿里雲 , 人工智能

阿里雲大數據AI - 阿里雲 AI 搜索開放平台新發布:增加 QwQ 模型

為了滿足用户對更高效、更智能搜索功能的需求,阿里雲 AI 搜索開放平台 新增加 QwQ 模型,這一全新模型的加入將為企業和開發者帶來更強大的搜索解決方案。 一、QwQ模型 開源版: 基於 Qwen2.5-32B 模型訓練的 QwQ 推理模型,於2025年3月6日發佈。通過強化學習大幅度提升了模型推理能力。模型數學代碼等核心指標(AIME 24/25、LiveCodeBench)以及部分通用指標(I

雲計算 , 搜索 , 阿里雲 , 人工智能 , 大模型