引言 在大數據時代,數據集成作為企業數據流轉的核心樞紐,承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長,傳統的行存同步方式在面對大規模列存數據處理時,逐漸顯露出性能瓶頸。 為解決這一挑戰,DataWorks數據集成推出基於ApacheArrow列存格式的高性能同步能力,實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝
在AI應用快速落地的今天,越來越多企業希望將大模型能力融入數據處理流程——無論是文本分析、智能摘要,還是RAG知識庫構建。但傳統模式下,模型部署依賴專業MLOps團隊,需自行搭建推理環境、配置GPU資源、維護服務穩定性,門檻高、週期長、成本重。 現在,阿里雲DataWorks發佈大模型服務能力,基於Serverless資源組,支持用户一鍵部署主流大模型,並可在數據集成和數據
在大數據技術飛速發展的今天,如何在性能與成本效益之間實現平衡,始終是企業構建數據平台的核心挑戰之一。阿里雲 EMR Serverless Spark 作為一款面向 Data+AI 的高性能 Lakehouse 產品,憑藉其內置的 Fusion 2.0(企業級 Spark 內核),為企業提供了一站式的企業級數據平台服務方案。 2025年9月,EMR Serverless Sp
作為一名長期與Elasticsearch打交道的引擎研發,我見過太多集羣因為一個看似無害的wildcard模糊查詢而瞬間崩潰。 許多開發者繼承了SQLLIKE %...%的思維習慣,直接把它搬到ES中——在小數據量時沒什麼大礙,但當文檔量上億時,它會變成拖垮集羣的性能黑洞: 輕則:錯用字段類型,查不準結果,浪費存儲 重則:暴力掃描,CPU瞬間打滿,集
MaxCompute SQL AI 全新上線,一句SQL就能用上大模型,零門檻讓數據分析師秒變AI高手。 在大模型能力飛速進化、推理成本持續下降的今天,AI 正從“可選項”變為大數據處理流水線中的“必選項”。越來越多的場景——無論是文本摘要、實體抽取,還是多模態的圖像識別、金融風控中的行為分析——都開始用模型推理替代傳統的規則邏輯,實現更智能、更精準的數據
模型介紹 12月1日晚,DeepSeek又開源了兩款新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,在推理能力上全球領先。 兩款模型有着不同的定位。DeepSeek-V3.2的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用智能體任務場景。9月底DeepSeek發佈了實驗版V3.2-Exp,此次是正式版更新。在公開推
在前3期PhysicalAI詳解系列中,我們詳細解讀了數據採集、擴增、增強的全過程,以及導航模型(X-Mobility)微調訓練的全過程。 在本期,我們將針對更復雜的VLA模型(以GR00T-N1.5為例)進行微調,同樣需要經過人工演示、數據擴增、模仿學習、在環驗證這幾個步驟。 但是,相比前例中的BC-RNN和X-Mobility模型,GR00T-N1.5是一
在數據驅動時代,非結構化數據(文本、圖像、音視頻、日誌等)與結構化、半結構化數據(JSON)共同構成企業的核心數據資產。其中,非結構化數據以更原始、多元的形態藴含着海量的業務洞察(如用户反饋、合同條款、產品缺陷圖像),Hologres4.0以“AI時代的一站式多模態分析平台”為核心理念,全面展示了Hologres在結構化、半結構化與非結構化數據分析能力上的重大突破,發佈全新向量索
數據爆炸、多模態融合、實時智能推理的浪潮,正在重塑企業的搜索需求——它們需要的不僅是“找到信息”,還要更快、更準、更智能地理解和響應複雜的業務場景。 一、AI搜索的背景與趨勢 在AIGC技術席捲全球的當下,搜索技術正迎來前所未有的升級窗口。電商平台通過多模態搜索精準理解用户需求,酒旅行業借力智能體Agent進行行程規劃與住宿推薦,傳統企業則利用獨有知
作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速
在今年雲棲大會上,EMRServerlessStella1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了Stella在存算分離架構、Lakehouse場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模OLAP系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的
隨着人工智能技術的深入發展,企業對數據的利用已不再侷限於傳統的結構化數據分析。越來越多的行業開始依賴多模態數據進行智能決策,涵蓋商品推薦、駕駛行為分析、金融風控、教育個性化等多個場景。這些場景普遍具備一個共同特徵:數據形態多樣、分析需求複雜、檢索方式多元。Hologres 4.0的整體架構圍繞“多模態分析檢索 all-in-one”設計,實現“一份數據、一份計算、多模分析”的一站
演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycas
本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota 策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra 作為東南亞互
隨着人工智能模型規模擴大和數據複雜度提升,整合多源異構數據實現多模態協同建模,已成為提升模型性能的核心路徑。高效的數據預處理體系需在保證數據質量與多樣性的前提下,突破大規模數據清洗、增強與合成的系統性技術瓶頸,以平衡訓練效能與成本控制。阿里雲人工智能平台PAI分佈式訓練PAI-DLC推出的一項全新任務類型DataJuiceronDLC,旨在為用户帶來開箱即用、高性能、穩定高效的數