第 29 屆中國計算機系統研討會(ChinaSys 2025) 將於 12 月 27 日- 12 月 28 日,在吉林長春舉辦。ChinaSys 是中國計算機系統及相關領域的學術團體,宗旨是為本領域的研究者和從業者提供資源共享、交換思想和會晤的平台,交流和探討系統領域的最新研究成果,促進中國計算機系統行業的發展。 阿里雲大數據 AI 團隊將深度參與ChinaSys 2025。 PAI 團隊將在 C
在近期的 Streaming Lakehouse Meetup · Online EP.2|Paimon × StarRocks 共話實時湖倉 直播中,Apache Paimon PMC 成員/阿里雲數據湖資深工程師葉俊豪帶來了關於 Paimon 多模態數據湖的深度技術分享。 隨着大模型訓練對數據規模與多樣性的要求不斷提升,傳統以批處理為中心的數據湖架構已難以滿足 AI 工作負載對實時性、靈活性和
2025年12月,第39屆神經信息處理系統大會(NeurIPS:Annual Conference on Neural Information Processing System)在美國加利福尼亞州聖迭戈順利召開。NeurIPS是機器學習領域的頂級會議,與ICML、ICLR並稱為機器學習領域三大會議。阿里雲 PAI 團隊與中國科學院大學前沿交叉科學學院等單位合作的研究成果——輕量級動態數據調度方案
你是否經歷過這樣的“靈異事件”: 業務監控顯示,你的日誌服務每秒只寫入了 50MB 的數據,全天累計寫入 1TB。 但在雲廠商的賬單,或者內網交換機的監控上,流量卻高達 100MB/s,全天消耗了 2TB 的帶寬。 網卡經常莫名其妙被打滿,造成正常的業務請求卡頓、丟包。 排查了一圈: 不是 TCP 重傳(Retransmission 正常)。 不是 SSL 握手膨脹(HTTPS 開銷沒那麼大
引言 在大數據時代,數據集成作為企業數據流轉的核心樞紐,承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長,傳統的行存同步方式在面對大規模列存數據處理時,逐漸顯露出性能瓶頸。 為解決這一挑戰,,DataWorks數據集成推出基於Apache Arrow列存格式的高性能同步能力,實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝、列式內存標準Apache Arrow,DataWo
在企業數據架構逐步走向實時化與一體化的過程中,如何高效處理“大量歷史+少量新增”的業務數據,已成為建設統一數倉與實時數倉時繞不開的關鍵挑戰。 傳統全量刷新方式在面對億級歷史數據時,往往面臨刷新延遲高、計算成本大、鏈路複雜等問題。為了解決這些痛點,業界逐漸形成了一種新的數據處理範式——DynamicTable(動態表),它通過聲明式語法自動維護物化結果,並支持高效的增量刷新能力。 阿里雲Hologr
作者:嶽元浩(顧城)、汪誠愚(熊兮)、黃俊(臨在) 背景 近年來,多模態人工智能技術迅猛發展,推動了視覺、語言、語音等多種模態信息的深度融合與理解。尤其在多模態深度推理任務中, GPT-4V 等前沿模型通過模擬人類的鏈式思維過程,展現出強大的跨模態推理能力。然而,當前的多模態大模型在實際應用中仍面臨兩個關鍵問題:首先,能力較強的SOTA模型往往參數規模龐大、計算資源消耗高,導致部署成本高昂,難以在
在AI應用快速落地的今天,越來越多企業希望將大模型能力融入數據處理流程——無論是文本分析、智能摘要,還是RAG知識庫構建。但傳統模式下,模型部署依賴專業MLOps團隊,需自行搭建推理環境、配置GPU資源、維護服務穩定性,門檻高、週期長、成本重。 現在,阿里雲DataWorks發佈大模型服務能力,基於Serverless資源組,支持用户一鍵部署主流大模型,並可在數據集成和數據開發任務中直接調用模型A
近日,全球權威研究機構Forrester正式發佈《The Forrester Wave™: Streaming Data Platforms, Q4 2025》報告(後簡稱“報告”),Ververica首次進入領導者象限,成為該年度報告中最受關注的"新晉領導者"。這一突破性成就標誌着Ververica在全球流式數據平台領域的技術實力和市場影響力獲得行業認可,其在實時AI領域的創新能力尤為突出。
一、背景介紹 七貓公司介紹及業務規模 七貓是一家深耕文化娛樂行業的互聯網企業,總部坐落在上海市前灘中心。七貓旗下原創文學網站七貓中文網於2017年5月正式上線,專注為原創作者提供創作指導、版權運營等全方位一體化服務。七貓拳頭產品七貓免費小説App於2018年8月正式上線,專注為用户提供正版、免費、優質的網絡文學內容閲讀服務。現平台用户超6億,規模位列數字閲讀行業前列。 原有大數據
在大數據技術深度融入企業核心業務的今天,EMR(E-MapReduce)集羣的規模與複雜性持續攀升,運維挑戰日益凸顯。複雜的大數據集羣運維一直是技術團隊的痛點——組件多、依賴關係複雜,故障定位困難,高頻變更帶來的穩定性風險,以及對專業運維人員的高度依賴,這些問題無不在考驗着企業的技術管理能力。 為破解這一難題,阿里雲正式推出 EMR AI助手(EMR Agent) ——一款專為大數據場景打造的智能
一、客户簡介 朝陽永續是先進的金融數據與智能服務提供商,致力於為基金管理公司、證券研究機構及專業投資者提供高質量、精準和全面的數據分析與決策支持工具。依託多年深耕金融行業的數據積累與投研經驗,朝陽永續推出其核心產品——AI小二,一款融合大模型技術的AI金融投研智能體。 AI小二基於生成式AI能力,結合阿里雲向量檢索服務Milvus版(簡稱阿里雲Milvus),打造了集“智能問答、極速研究、深度分析
在前3期Physical AI詳解系列中,我們詳細解讀了數據採集、擴增、增強的全過程,以及導航模型(X-Mobility)微調訓練的全過程。 在本期,我們將針對更復雜的VLA模型(以GR00T-N1.5為例)進行微調,同樣需要經過人工演示、數據擴增、模仿學習、在環驗證這幾個步驟。 但是,相比前例中的BC-RNN和X-Mobility模型,GR00T-N1.5是一個更復雜的模型,需要更大規模
數據爆炸、多模態融合、實時智能推理的浪潮,正在重塑企業的搜索需求——它們需要的不僅是“找到信息”,還要更快、更準、更智能地理解和響應複雜的業務場景。 一、AI搜索的背景與趨勢 在AIGC技術席捲全球的當下,搜索技術正迎來前所未有的升級窗口。電商平台通過多模態搜索精準理解用户需求,酒旅行業借力智能體Agent進行行程規劃與住宿推薦,傳統企業則利用獨有知識庫和RAG技術賦能售前售後服務——搜索能力的智
作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速的浪潮下,越來越多的企業出於成本優化、合規要求和業務協同等原因,考慮
在今年雲棲大會上,EMRServerlessStella1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了Stella在存算分離架構、Lakehouse場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模OLAP系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。
在前兩期,我們已經分別基於仿真環境和世界模型進行了針對Manipulation(動作控制)模型的訓練數據合成與模仿學習。我們來回顧下整個過程: 針對具身智能場景,除了Manipution,Navigation(導航)也是一類非常重要的控制模型,本期我們就來詳細解讀基於仿真環境的導航模型訓練的全過程。 和動作控制模型類似,對導航模型的訓練也可以通過人工演示、數據擴增、數據增強、模仿學習和模型
演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycash等知名品牌,截至2025年,服務全球金融
本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra作為東南亞互聯網頭部企業,其業務生態覆蓋網約車、電商
近日,阿里雲DataWorksAgent正式發佈,推出面向數據開發治理的全新智能範式——用自然語言對話驅動全鏈路數據開發,讓“你説,我做”成為現實。 現在,只需輸入一句描述,DataWorksAgent就能自動完成從需求理解、任務構建、代碼生成到調度發佈的全流程操作,真正實現“對話即開發”。 核心功能發佈:兩大場景,全面提效 場景一:數據開發Agent——一句話生成可上線ETL任務 還在手
在上期Notebook詳解系列中,我們介紹了《基於Isaac仿真的操作動作數據擴增與模仿學習》,本期我們將介紹一套類似的方案,同樣可以完成人工演示、數據擴增、模仿學習、模型測評這幾個環節,但完全使用Cosmos世界模型作為內核。 相比基於Isaac仿真的方案,使用Cosmos世界模型的方案具有以下特點: 人工演示、數據擴增環節無需仿真算力(RTCore),全流程使用AI算力(CU
2025年雲棲大會,EMRServerlessStarRocks重磅發佈全新企業級版本內核Stella(StarRocksEfficientandLightening-fastLakehouse),完全兼容開源StarRocks,為用户提供企業級的產品功能、卓越的性能及穩定性保障。 EMRServerlessStarRocks在權威TPC基準測試中創造佳績:在“數據分析”性能測試TPC-H榜單中,
在當今的數字化時代,以音視頻等多媒體內容為代表的非結構化數據呈現出爆炸式增長。這類數據無法簡單地用傳統數據庫中的行列數據來表示,因此向量檢索技術應運而生。非結構化數據通常被轉換為向量表示,並存儲在向量數據庫中。這種向量化模型能夠提取並捕捉到數據中的特徵,在多維的向量空間中進行有效表示。 一個形象的例子是:embedding(king)−embedding(man)+embedding(wom
在生成式AI浪潮下,數據不再只是“被搬運的原料”,更應是“可理解、可推理、可挖掘價值”的智能資產。然而,傳統ETL(Extract-Transform-Load)流程仍停留在結構化數據處理層面,面對海量文本、日誌、反饋等非結構化數據時,往往依賴人工標註或複雜開發鏈路,效率低、成本高、響應慢。 為此,阿里雲大數據開發治理平台DataWorks數據集成全新智能化升級,以“AI釋放數據價值”為核心,正式