tag 大數據

標籤
貢獻394
336
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

得物技術 - 得物自研DGraph4.0推薦核心引擎升級之路

一、前言 DGraph是得物自主研發的新一代推薦系統核心引擎,基於C++語言構建,自2021年啓動以來,經過持續迭代已全面支撐得物社區內容分發、電商交易等核心業務的推薦場景。DGraph在推薦鏈路中主要承擔數據海選和粗排序功能,為上層精排提供高質量候選集。 核心技術特性: 索引層 - 支持KV(鍵值)、KVV(鍵-多值)、INVERT(倒排)、DENSE-KV(稠密鍵值)等。索引存儲支持磁盤

高併發 , 大數據 , 推薦引擎

收藏 評論

Protonbase - AI 時代, 需要什麼樣的數據底座?

作者:楊克特 ProtonBase 技術副總裁 畢業於浙江大學計算機系,獲碩士學位,具備 10 多年核心系統設計和研發經驗。曾任阿里巴巴資深技術專家,負責過搜索引擎、資源調度、實時監控等系統的設計和研發。具備豐富的開源經驗,是 Apache Flink 和 Apache Druid 的 PMC 成員,以及 Apache 軟件基金會成員。 概念科普:Data Warebase = Data Ware

大數據 , 數據庫 , 人工智能 , 雲原生 , 分佈式

收藏 評論

阿里雲大數據AI - 阿里雲 AI 搜索開放平台新增:服務開發能力

隨着 AI 技術的快速發展,用户對 以算法驅動的 AI 搜索相關能力需求日益增長。AI 搜索開放平台已提供20+原子化服務能力,可靈活組合搭建AI搜索。本期發佈將重點解決用户在代碼開發中的不便,通過集成 dsw 能力,新增 notebook 功能,為用户提供更便捷的代碼編寫、調試及運行環境,進一步提升服務調試體驗。 一、產品能力 1. 文檔解析服務 支持文檔、圖片分鐘級解析,針對 PDF、DOC、

搜索引擎 , 大數據 , 人工智能 , 數據分析 , 數據處理

收藏 評論

泊浮目 - 入門向:下一代實時計算基礎設施-Fluss

本文在綠泡泡“狗哥瑣話”首發於2024.12.15 -關注不走丟。 上期講Flink Forward Aisa的視頻比較受歡迎,這期加更講Fluss。 為了方便新觀眾瞭解Fluss。簡單介紹一下Fluss,這玩意兒主要是為實時分析而生的流存儲。 所以它會有和Kafka一樣的能力,但是比起Kafka,多一個直接查的能力。 用在數據湖場景,比如配合Paimon,那麼就可以當作一個實時層,整個鏈路的延

fluss , 大數據 , flink , kafka

收藏 評論

泊浮目 - Fluss RoadMap裏Zero Disk是啥

本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。 上期Fluss的內容還算受歡迎,這期加更,講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。 所謂Zero Disks就是把所有的存儲放在S3這種遠程,容量無限的存儲上。這樣集羣本身就可以做到無狀態了。 那這玩意兒會怎麼做呢?我們直接看一篇先成的文章。 原文鏈接: https://medium.com/the

fluss , 大數據 , flink , kafka

收藏 評論

趙渝強老師 - 【趙渝強老師】Scala編程語言

Scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平台(Java虛擬機)之上,併兼容現有的Java程序。因此,要安裝Scala環境之前,首先需要安裝Java的JDK。學習Scala編程語言,將為後續學習Spark和Flink奠定基礎。視頻講解如下: https://www.bilibili.com/video/BV1wdUWYe

spark , 大數據 , Scala , flink

收藏 評論

鏡舟科技 - 數據湖和數據倉庫的區別

在當今數據驅動的時代,企業需要處理和存儲海量數據。數據湖與數據倉庫作為兩種主要的數據存儲解決方案,各自有其獨特的優勢與適用場景。本文將客觀詳細地介紹數據湖與數據倉庫的基本概念、核心區別、應用場景以及未來發展趨勢,幫助讀者更好地理解和選擇適合自身需求的數據存儲方案。 一、基本概念 數據湖(Data Lake) 數據湖的概念最早由Pentaho公司的James Dixon在2011年提出,是一種能夠存

大數據 , 數據結構 , 數據倉庫 , 數據分析 , 數據湖

收藏 評論

阿里雲大數據AI - 企業級AI搜索解決方案:阿里雲AI搜索開放平台

隨着信息技術的飛速發展,搜索引擎作為信息獲取的重要工具,扮演着不可或缺的角色。阿里雲 AI 搜索開放平台以其強大的技術支持和靈活的開放性,持續為用户提供高效的搜索解決方案。 一、阿里雲 AI 搜索開放平台 一站式的 AI 搜索開放平台作為阿里雲 AI 搜索整個產品體系核心,提供豐富的 AI 搜索組件化服務。兼容主流開發框架 LangChain和 LlamaIndex,支持搜索專屬大模型、百鍊等大模

搜索引擎 , 大數據 , 雲計算 , 阿里雲 , 人工智能

收藏 評論

vivo互聯網技術 - vivo Pulsar 萬億級消息處理實踐(2)-從0到1建設 Pulsar 指標監控鏈路

作者:vivo 互聯網大數據團隊- You Shuo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第2篇,Pulsar支持上報分區粒度指標,Kafka則沒有分區粒度的指標,所以Pulsar的指標量級要遠大於Kafka。在Pulsar平台建設初期,提供一個穩定、低時延的監控鏈路尤為重要。 系列文章: 《vivo Pulsar萬億級消息處理實踐-數據發送原理解析和性能調優

大數據 , 消息隊列 , kafka , pulsar

收藏 評論

vivo互聯網技術 - vivo Pulsar 萬億級消息處理實踐(3)-KoP指標異常修復

作者:vivo 互聯網大數據團隊- Chen Jianbo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第3篇。 Pulsar是Apache基金會的開源分佈式流處理平台和消息中間件,它實現了Kafka的協議,可以讓使用Kafka API的應用直接遷移至Pulsar,這使得Pulsar在Kafka生態系統中更加容易被接受和使用。KoP提供了從Kafka到Pulsar的無縫轉換,

大數據 , JAVA , 消息隊列 , kafka , pulsar

收藏 評論

軟件部長 - 2025年企業數據遷移新方案:JVS低代碼用可視化配置實現海量數據自動映射

隨着數字化轉型的推動,低代碼開發在企業中應用的場景越來越多。但是企業在處理海量數據與系統對接時,常遇到困難。那麼如何快速將外部數據轉化為系統可識別的結構化模型?今天我們以JVS低代碼為例,詳細聊一聊。 在JVS低代碼系統中推出的數據轉模型組件,數據轉模型組件可以解決批量數據映射與關聯的問題。它通過自動化映射機制,將用户上傳的Excel、CSV等格式文件中的文本信息(如用户姓名、部門名稱、下拉

大數據 , 數據結構 , 低代碼 , 數據遷移 , 低代碼開發平台

收藏 評論

軟件部長 - 業務分析必備!用JVS-智能BI製作帶漸變效果的分組條形圖實戰教程

在數據驅動決策的時代,圖表成為數字的翻譯官,在各個場景中都能用到。 其中條形圖以直觀的橫向對比為特點,成為業務分析、學術研究、商業報告中的核心載體。 條形圖圖表又可以分為分組條形圖和基礎條形圖。這兩個圖表是我們很常見的一種可視化圖表展示,今天我們用JVS-智能BI的可視化圖表來配置基礎條形圖,用它來展示出條形圖圖表的獨有樣式配置。 樣式配置 進入到圖表設計,點擊選擇基礎條形圖,

大數據 , 數據可視化 , 圖表工具 , 數據分析 , 圖表

收藏 評論

泊浮目 - Fluss RoadMap裏Zero Disk是啥

本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。 上期Fluss的內容還算受歡迎,這期加更,講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。 所謂Zero Disks就是把所有的存儲放在S3這種遠程,容量無限的存儲上。這樣集羣本身就可以做到無狀態了。 那這玩意兒會怎麼做呢?我們直接看一篇先成的文章。 原文鏈接: https://medium.com/the

fluss , 大數據 , flink , kafka

收藏 評論

阿里雲大數據AI - 從“字”到“畫”:基於Elasticsearch Serverless 的多模態商品搜索實踐

隨着人工智能技術的飛速發展,用户對於搜索體驗的要求早已超越了傳統的關鍵詞匹配。我們正處在一個從文本搜索向多模態、跨模態搜索演進的時代。用户希望能夠通過圖片、甚至是自然語言描述的複雜場景,來精準地找到他們想要的商品。然而,如何理解並檢索圖片中的視覺元素?如何處理那些文本標題無法完全概括的商品特徵?這些都是傳統搜索面臨的挑戰。 本文將深入探討多模態商品檢索的通用解決方案,詳細解讀其背後的兩大核心技術:

elasticsearch , 大數據 , 搜索 , 檢索系統 , serverless

收藏 評論

vivo互聯網技術 - vivo Pulsar 萬億級消息處理實踐(4)-Ansible運維部署

作者:Liu Sikang、互聯網大數據團隊-Luo Mingbo Pulsar作為下一代雲原生架構的分佈式消息中間件,存算分離的架構設計能有效解決大數據場景下分佈式消息中間件老牌一哥"Kafka"存在的諸多問題,2021年vivo 分佈式消息中間件團隊正式開啓對Pulsar的調研,2022年正式引入Pulsar作為大數據場景下的分佈式消息中間件,本篇文章主要從Pulsar運維痛點、Ansi

中間件 , 大數據 , 運維自動化 , ansible , pulsar

收藏 評論

阿里雲大數據AI - ODPS 十五週年實錄 | Data + AI,MaxCompute 下一個15年的新增長引擎

ODPS十五週年實錄|Data+AI,MaxCompute下一個15年的新增長引擎 本文根據ODPS十五週年·年度升級發佈實錄整理而成,演講信息如下: 於得水(得水):阿里雲智能集團計算平台事業部資深技術專家 活動:【數據進化·AI啓航】ODPS年度升級發佈 此次演講內容共分為三個部分: 第一部分,介紹MaxCompute面向Python和AI生態計算的演進歷史。從最初的SDKLibrary到表示

大數據 , 人工智能 , 分佈式 , SQL , Python

收藏 評論

吳大同 - qData 數據中台完整功能介紹 —— 商業版與開源版功能對比

一、qData 數據中台概覽 在數字化轉型的大背景下,數據已經成為企業最核心、最具價值的資產。qData 數據中台,作為企業數據治理與應用的關鍵平台,憑藉高性能與創新理念脱穎而出。它秉持 “高效、安全、靈活、開放” 的設計原則,致力於為企業打造一站式的數據解決方案。 qData 數據中台具備多方面優勢:在 數據接入 上,能夠廣泛兼容主流數據庫與消息隊列,確保異構數據順暢匯聚;在 數據建模 上,提供

大數據 , 開源軟件 , springboot , JAVA , 數據處理

收藏 評論

吳大同 - qData 數據中台【開源版】發佈 1.0.5 版本,全面提升規則治理、非結構化數據處理與部署體驗

2025年9月3日 —— 企業級開源數據中台 qData 開源版 正式發佈 1.0.5 版本。本次更新聚焦 規則治理一體化、非結構化數據支持、以及開源版的體驗與部署優化,進一步提升規則複用能力、數據接入廣度與運維效率,幫助企業和開發者更輕鬆地構建高質量數據治理體系。 ✨ 新增功能 🧩 字段級規則綁定:在“數據元類型”中即可為字段綁定稽查與清洗規則,任務和組件配置時自動加載並可二次修改,大幅減

大數據 , 開源軟件 , 數據中台 , JAVA , 數據治理平台

收藏 評論

吳大同 - qData 數據中台開源版部署全攻略:三種方式任你選擇

作為一款專注於數據治理與數據資產管理的數據中台,qData 數據中台開源版(社區版本) 提供了靈活的部署方式,滿足不同階段用户的需求:從初學者的快速上手,到研發團隊的日常開發,再到生產環境的大規模部署。本文將詳細介紹三種部署方式的適用場景和特點,幫助你快速找到最適合的方案。 🚀 三種部署方式對比 部署方式 説明 適用場景 Docker C

大數據 , 開源軟件 , 數據中台 , JAVA , 數據治理平台

收藏 評論

SeaTunnel - 實測有效|用 SeaTunnel 免費實現 MySQL→Oracle 實時同步,步驟超細

要説 MySQL 同步到Oracle的工具,除了傳統的 OGG,應該考慮的就是 ST(SeaTunnel) 了吧,簡直太好用啦 ~ 當前生產已穩定運行 4 個月,源端 3 個庫,完美支持!推薦給大家試試~ 1. SeaTunnel怎麼用?來看看幫助信息 ./bin/seatunnel.sh -h Usage: seatunnel.sh [options] Options: -

oracle , 大數據 , MySQL , seatunnel , JAVA

收藏 評論

吳大同 - 輕鬆上手 qData 數據中台開源版:Docker Compose 助你10分鐘跑起來

説在前面 誰適合看這份指南? 初次接觸 qData,希望快速體驗功能的小夥伴 不想折騰複雜環境配置和前端打包的人 想用“一鍵啓動”省事體驗完整平台的用户 我們已經為你準備好“開箱即用”的完整部署包,包括: ✅ 前端靜態資源(打包好的 dist 文件夾) ✅ DolphinScheduler 調度器(無需額外安裝) ✅ Hadoop 全家桶(HDFS + YARN) ✅ Flin

大數據 , 開源軟件 , 數據中台 , JAVA , 數據治理平台

收藏 評論

吳大同 - 從兼容到極致性能——qData數據中台商業版核心指標解讀

在數字化轉型的背景下,企業對數據中台的要求越來越高——既要兼容信創環境,又要在性能上經得起大規模業務的考驗。qData 數據中台商業版針對這些關鍵問題,設定了一系列清晰的技術指標和性能指標。 一、技術指標 1. 架構與兼容 信創適配:核心模塊已在國產 X86 CPU、國產操作系統及達夢數據庫環境下完成兼容性驗證。 多引擎支持:批處理(Spark)與流處理(Flink)雙引擎共存,可按業務場

大數據 , 開源軟件 , 數據中台 , 數據處理 , 數據治理平台

收藏 評論

StarRocks - StarRocks 助力印度領先即時零售平台 Zepto 構建實時洞察能力

導讀: 開源無國界,在本期 “StarRocks 全球用户精選案例” 中,我們走進印度即時零售品牌 Zepto。 這家以 “10 分鐘送達” 聞名的公司,業務已覆蓋 50+ 城市、45,000+ 商品,品類橫跨生鮮雜貨、電子產品、美妝個護、服飾、玩具等。憑藉前沿技術與戰略佈局的前置倉網絡,Zepto 在短短几年間徹底改變了印度的即時零售格局。 隨着規模擴張,Zepto 藉助 StarRo

zepto , 大數據 , databricks , postgresql , starrocks

收藏 評論

吳大同 - qData 數據中台:全面支持 ARM 架構與信創國產化環境的兼容性説明

一、概述 qData 數據中台基於 Java、Vue 與 Spring Boot 技術體系構建,具備高度模塊化與跨平台特性,可在多種硬件與操作系統環境中穩定運行。 在國產化與信創體系持續深化的背景下,qData 已完成在 ARM 架構服務器(包括鯤鵬、飛騰、海光等)以及 信創軟硬件生態(涵蓋統信 UOS、銀河麒麟、達夢數據庫等)上的兼容性驗證與適配工作。該系統能夠在國產軟硬件環境下保持性能穩定與功

大數據 , 開源軟件 , 信創 , 數據中台 , arm

收藏 評論