大數據

標籤

貢獻412

3728

05:15 PM · Oct 25 ,2025

@tech

暱稱青雲交技術圈

Last seen
@nebulabio

暱稱北京辰輝創聚生物

Last seen
@u_16272508

暱稱事辯天下

Last seen
@elhix0bg

暱稱阿里雲大數據AI

Last seen
@u_15844731

暱稱阿森CTO

Last seen
@u_14767244

暱稱u_14767244

Last seen
@dolphinscheduler

暱稱海豚調度

Last seen
@ververica

暱稱ApacheFlink

Last seen
@seatunnel

暱稱SeaTunnel

Last seen
@zhaoqianglaoshi

暱稱趙渝強老師

Last seen
@huikaichedemianbao

暱稱合合技術團隊

Last seen
@u_15591410

暱稱我就是不長肉而已

Last seen

@大數據 / 博客 RSS 訂閱

Dec 21 2025

mob64ca14089531 - hadoop設置map併發數

1、Mapper的key排序方式默認為快速排序，合併切片文件時用的是歸併排序，繼承Mapper類 * 驅動類關聯map：job.setMapperClass(WordcountMapper.class); 2、Reducer需要繼承Reducer類，重寫reduce(key, values, context)

數據傾斜 , 大數據 , hadoop設置map併發數 , hadoop , 自定義

收藏評論

Dec 09 2025

qbit - 面向學科領域的網絡信息資源深度聚合與服務研究——Part5（qbit學習記錄）

圖書信息《面向學科領域的網絡信息資源深度聚合與服務研究》項目背景本書是國家社科基金重大項目“面向學科領域的網絡信息資源深度聚合與服務研究”的結項成果，孫建軍教授是該項目的首席專家。回目錄第五部分學科網絡資源聚合 10 學科網絡資源的主題聚合 10.1 基於關聯數據的學科網絡資源主題聚合 10.1.1 學科網絡資源主題聚合可行性分析 10.1.2 學科網絡資源主

大數據

收藏評論

Sep 13 2022

Alluxio - Meta公司內部項目-RaptorX：將Presto性能提升10倍

概要速覽 RaptorX是Meta（前“Facebook公司”，下文統稱“Meta”）公司的一個內部項目名稱，目的是為了降低查詢延遲，讓Presto的查詢性能大大超越原生（vanilla） Presto，這篇文章介紹了RaptorX的關鍵模塊——分層緩存。有了分層緩存，我們能夠將查詢性能提升10倍。這一新的架構不僅可以完勝像Raptor之類以性能為導向的連接器，還具有向存儲分離化（即存算分離架構

Facebook , 大數據 , 分佈式系統 , meta , presto

收藏評論

Dec 02 2025

架構設計師 - 不同的項目目錄yarn的版本不一致

這個本來是打算寒假在家看的，對操作系統有一個大概的瞭解，沒想到受疫情影響，就一直呆在家了，這個系列也算是更新完了而這花了二個星期的時間把王道的操作系統也看了一遍，主要是看書，做後面的習題，主要是選擇，大題略看了一下，接下來就是再複習繼續寫題了。 1. 文件，抽象一個磁盤塊集合一個文件對應這一堆的磁盤塊 2. 文件系統，抽象整個磁盤(

文件控制塊 , 不同的項目目錄yarn的版本不一致 , 大數據 , yarn , 文件系統 , 目錄樹

收藏評論

Jan 07 2026

上海拔俗網絡 - AI智慧司牧服務系統：打造草原上的“千里眼”與“數字牧羊人”

傳統養殖裏，養殖户最怕啥？奶牛生病沒及時發現、母豬發情錯過配種、飼料喂多了浪費、喂少了不長肉——全靠“眼觀六路、耳聽八方”，累不説還容易出錯。而AI智慧司牧服務系統，就像給牧場裝了“智能大腦+千里眼+順風耳”，用實打實的技術解決這些痛點，讓養殖從“憑經驗”變成“靠數據”，新手也能輕鬆上手。這套系統的核心技術，説穿了就是“讓機器懂養殖、會幹活”，拆解成三個好理解的功能：第一個是

大數據 , 數據 , 物聯網 , NLP , 人工智能

收藏評論

Dec 01 2025

亞拉索第一 - 用 DevUI MateChat 搭一個企業知識庫 Copilot

企業裏做知識庫 Copilot 這件事，在 2025 年幾乎已經成了中後台產品的標配需求。研發同學想快速查接口規範、排查流程和上線 checklist 客服想一鍵找到話術模板和工單歸因口徑；運營想問動 SOP @和數據口徑大家都知道模型側可以接，但是真正拖慢落地的反而是前端交互：用户不知道該怎麼問、也不知道系統能答什麼 LLM

大數據 , 數據倉庫 , 開發者 , 結構化 , HTML

收藏評論

Dec 21 2025

阿森CTO - Linux多線程

@TOC 📝進程和線程進程是資源分配的基本單位線程是調度的基本單位線程共享進程數據，但也擁有⾃⼰的⼀部分數據: 線程ID 一組寄存器棧 errno 信號屏蔽字調度優先級 🌠 進程的多個線程共享同⼀地址空間,因此TextSegment、DataS

全局變量 , 大數據 , yyds乾貨盤點 , include , 數據倉庫 , i++

收藏評論

Dec 19 2025

mb69410ac31213c - 華為雲Flexus AI智能體：讓企業智能化轉型“輕裝快跑”

當AI技術的浪潮席捲各行各業，“如何讓AI真正落地到業務場景”，成了無數企業的共同命題。有的企業困於技術門檻，有的卡在成本高企，有的愁於落地效率——而華為雲推出的Flexus AI智能體，正以“一站式平台”的姿態，把這些難題變成了“輕量級操作”。它不是冰冷的技術工具，更像一位懂業務的“智能夥伴”，讓企業從“AI圍觀者”變成“AI實踐者”。從“技術門檻”到“零成本上手”：A

業務邏輯 , 大數據 , 數據倉庫 , 數據安全 , 官網

收藏評論

Oct 18 2025

代碼匠心 - Lambda架構：實時與批處理的完美融合

引言在當今數據爆炸的時代，企業面臨着前所未有的數據處理挑戰——如何同時滿足海量歷史數據的批處理分析需求和實時數據的低延遲查詢需求？2014年，Storm的作者Nathan Marz提出了一種革命性的架構模式——Lambda架構，為解決這一矛盾提供了優雅的解決方案。 Lambda架構通過巧妙地將數據處理分解為批處理層(Batch Layer)、加速層(Speed Layer)和服務層(Servin

大數據處理 , 大數據 , hadoop , flink

收藏評論

Dec 09 2025

qbit - 面向學科領域的網絡信息資源深度聚合與服務研究——Part2（qbit學習記錄）

圖書信息《面向學科領域的網絡信息資源深度聚合與服務研究》項目背景本書是國家社科基金重大項目“面向學科領域的網絡信息資源深度聚合與服務研究”的結項成果，孫建軍教授是該項目的首席專家。回目錄第二部分學術網絡資源特徵及利用 2 學術網絡資源特徵、分步及模式 2.1 資源類型及分佈 2.1.1 學術數據庫 2.1.2 電子期刊 2.1.3 電子圖書 2.1.4 網絡學

大數據

收藏評論

Dec 01 2025

一線數智 - AI 項目越做越亂？你缺的其實是新一代數據治理體系

【一線數智評論】最近在梳理客户標籤時發現，基於過去的大數據的客户標籤算法和管理方式，在今天有AI加持下，多模態的數據管理，存在缺失，AI時代，數據治理必須重做一遍　　過去十幾年，企業對“數據治理”的理解大多停留在：建數據倉庫、做數據質量、統一指標口徑、管權限、查血緣。　　這當然重要，但在 AI 浪潮面前，這套思維已經不夠用了。　　因為今天企業面臨的是：

大數據 , 數據 , 數據倉庫 , 自動生成 , 模態

收藏評論

Dec 03 2025

青雲交技術圈 - Java 大視界 -- Java 大數據在智能物流運輸車輛智能調度與路徑優化中的技術實現

(centerJava 大視界 -- Java 大數據在智能物流運輸車輛智能調度與路徑優化中的技術實現/center) 引言：嘿，親愛的 Java 和大數據愛好者們，大家好！我是CSDN（全區域）四榜榜首青雲交！對在《大數據新視界》和《 Java 大視界》專欄攜手探索的旅程中，我們已共同見證 Java 大數據在諸多領域掀起的技術變革。從電商用户流失預測的精準洞察，到城市空氣質

spark , List , 大數據 , yyds乾貨盤點 , Java大數據 , JAVA

收藏評論

Feb 19 2025

合合技術團隊 - 用户的聲音 | 文檔結構化信息提取方案測評：LLM、開源模型部署與雲端API，誰是合適選擇？

文檔預處理之文本化近日，我們收到來自專業用户的使用心得，通過測試淺析結構化信息提取技術，輔助完成技術選型。結構化信息提取的重要性數據作為大模型時代的核心生產資料，其結構化處理能力直接影響AI系統的實用價值。結構化信息提取的重要性數據作為大模型時代的核心生產資料，其結構化處理能力直接影響AI系統的實用價值。儘管知識圖譜、RAG等技術依賴海量文本資源，但現實中的歷史檔案、法律文書等重要數據多以掃

llm , 大數據 , 人工智能 , 文檔

收藏評論

Nov 15 2025

事辯天下 - 數據驅動人力資源新生態：從“人才星球”啓航到“數紐中心”揭牌

數據要素正以前所未有的力量重塑產業格局，人力資源領域率先迎來關鍵突破。在短短兩天內，一場圍繞“數據驅動”的系列重磅活動在上海舉行，從民間生態的盛大啓航到官方平台的權威賦能，清晰勾勒出人力資源產業轉型升級的未來路徑，標誌着行業正式邁入“星聯數紐”的新紀元。 11月12日：生態聚變，“人才星球”啓航共創產業新生態系列活動的序幕，於11月12日在上海張江V

大數據 , 數據 , 數據倉庫 , 解決方案 , 數據驅動

收藏評論

Nov 30 2025

wx5d7321c78b265 - php怎麼安裝_PHP環境搭建的詳細步驟與注意事項

PHP環境搭建主要有集成環境、手動配置和容器化三種方案。集成環境（如XAMPP）安裝簡便，適合新手快速上手，但靈活性差；手動配置（如Ubuntu下用apt安裝Apache、PHP、MySQL）可控性強，適合生產環境，但複雜度高；容器化（如Docker）兼具隔離性與一致性，利於團隊協作和部署，但資源消耗大且學習成本高。關鍵配置包括php.ini中的時區、內存限制、文件上傳

大數據 , php , hive , apache

收藏評論

Dec 12 2025

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在自然語言生成中的可控性研究與應用實戰

(centerJava 大視界 -- Java 大數據機器學習模型在自然語言生成中的可控性研究與應用實戰/center) 引言：嘿，親愛的 Java 和大數據愛好者們，大家好！我是CSDN（全區域）四榜榜首青雲交！自然語言生成（NLG）技術正掀起人工智能領域的新一輪變革 —— 從智能客服自動應答，到新聞稿件批量生成，NLG 已深入內容生產、智能交互的每個角落。但當我們嘗試讓機

spark , 大數據 , yyds乾貨盤點 , Java大數據 , JAVA

收藏評論

Dec 18 2025

clougence - 用一條表達式，穩定同步上萬張表

在現代業務環境中，“表太多” 已成為數據庫同步領域越來越普遍的現象。一個成熟的業務背後，數據庫中經常有幾千張甚至上萬張表。在這種規模下，一旦某張表未被同步，下游數倉和分析鏈路就可能出現斷層。在這樣的背景下，如何實現海量表穩定、可擴展的數據遷移同步，成為一個亟待解決的問題。本文將圍繞這一挑戰展開分析，並分享一種新的解決思路 —— 基於表達式的表名匹配機制。上萬張表同步，難在哪裏？多表同步的挑戰

數據同步 , 大數據 , MySQL

收藏評論

Dec 01 2025

mob64ca1403c772 - vm archive擴容

個人理解網上大多數擴容教程都是針對Centos系統。對於Ubuntu系統，系統擴容同樣用到LVM，但是如果Ubuntu一開始不是使用LVM管理的，之後有想要擴容，我沒有找到方法。簡單説説對於系統擴容的理解吧。有2種情況，一種是隻需要擴充目前linux系統的硬盤容量，對於掛載的目錄沒有要求；另一種是隻想擴大根目錄的容量，這時候就

大數據 , 文件系統 , hive , vm archive擴容 , .net , ide

收藏評論

Nov 25 2025

向量檢索 - 如何通過HTTP API檢索Doc

本文介紹如何通過HTTP API在Collection中進行相似性檢索。前提條件已創建Cluster：創建Cluster。已獲得API-KEY：API-KEY管理。 Method與URL HTTP POST https://{Endpoint}/v1/collections/

向量檢索 , 大數據 , yyds乾貨盤點 , 數據倉庫 , AI , 人工智能 , 大模型

收藏評論

Jan 08 2026

AI領域佈道師 - hadoop兩個服務器遷移方案

隨着Apache Hadoop的起步，雲客户的增多面臨的首要問題就是如何為他們新的的Hadoop集羣選擇合適的硬件。儘管Hadoop被設計為運行在行業標準的硬件上，提出一個理想的集羣配置不想提供硬件規格列表

大數據 , 運維 , hadoop , hadoop兩個服務器遷移方案 , 數據庫 , 人工智能

收藏評論

Nov 28 2025

數據分析家 - MySql技術棧

一、引言：MyEMS 的定位與價值背景在 “雙碳” 目標與工業精細化管理需求驅動下，能源管理系統（EMS）已成為企業降本增效、綠色轉型的核心工具。MyEMS（My Energy Management System）作為開源化、可定製的能源管理解決方案，憑藉模塊化架構與全流程技術覆蓋能力，實現從能源數據 “採、傳、存、算、用” 的閉環管理。其核心價

能源 , 大數據 , 信息可視化 , 架構 , 人工智能 , Css , 前端開發 , HTML

收藏評論

Oct 17 2024

百度Geek説 - 用增結算數倉化改造：在/離線調度系統的構建與應用

導讀移動運營推廣平台（OPS）承載着百度內部移動應用/移動搜索業務的用户增長預算的全流程結算線上化管控功能，為了解決用增業務發展規模擴大、原有技術架構老舊、無離線數倉系統等一系列的問題，針對全域結算數據啓動了整體的架構改造。為了解決業務中存在的問題，本文深入探討並提出了一類在線、離線結合的任務調度解決方案，完成了結算業務架構更新換代，更好地服務於業務發展。 01 背景簡述 1.1業務/技術背景

大數據 , 架構 , 百度 , 重構

收藏評論

Nov 21 2025

mob64ca14193248 - 大數據培訓hive數倉存儲格式詳解_hive一次能insert多少條

5.1.5 數據倉庫存儲格式選擇選擇合適的存儲格式，需要在查詢性能、寫入性能、存儲成本、壓縮效率、模式演化支持、生態系統兼容性等多個維度進行權衡。現代數據倉庫（尤其是基於數據湖的架構）提供了多種列式存儲格式作為首選。一、核心存儲格式對比以下是目前主流的、適用於數據倉庫場景的存儲格式：

大數據 , 數據 , hive , 數據倉庫 , 元數據 , 後端開發 , Python

收藏評論

Jan 06 2026

饕餮大數據 - 【Knox編譯】webhdfs-test 依賴收斂衝突問題處理

一、問題背景代碼已經提交到github,完整代碼請參考：Ttbigdata 在 Bigtop 編譯 Apache Knox 2.1.0 的過程中，構建流程推進到測試相關模塊： gateway-test-release / webhdfs-test 前置模塊（webhdfs-kerb-test）已經成功，但在 webhd

大數據 , 私藏項目實操分享 , 運維 , hadoop , Knox , Ambari

收藏評論

28 29 30 31 32

大數據

@大數據 / 博客 RSS 訂閱

mob64ca14089531 - hadoop設置map併發數

qbit - 面向學科領域的網絡信息資源深度聚合與服務研究——Part5（qbit學習記錄）

Alluxio - Meta公司內部項目-RaptorX：將Presto性能提升10倍

架構設計師 - 不同的項目目錄yarn的版本不一致

上海拔俗網絡 - AI智慧司牧服務系統：打造草原上的“千里眼”與“數字牧羊人”

亞拉索第一 - 用 DevUI MateChat 搭一個企業知識庫 Copilot

阿森CTO - Linux多線程

mb69410ac31213c - 華為雲Flexus AI智能體：讓企業智能化轉型“輕裝快跑”

代碼匠心 - Lambda架構：實時與批處理的完美融合

qbit - 面向學科領域的網絡信息資源深度聚合與服務研究——Part2（qbit學習記錄）

一線數智 - AI 項目越做越亂？你缺的其實是新一代數據治理體系

青雲交技術圈 - Java 大視界 -- Java 大數據在智能物流運輸車輛智能調度與路徑優化中的技術實現

合合技術團隊 - 用户的聲音 | 文檔結構化信息提取方案測評：LLM、開源模型部署與雲端API，誰是合適選擇？

事辯天下 - 數據驅動人力資源新生態：從“人才星球”啓航到“數紐中心”揭牌

wx5d7321c78b265 - php怎麼安裝_PHP環境搭建的詳細步驟與注意事項

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在自然語言生成中的可控性研究與應用實戰

clougence - 用一條表達式，穩定同步上萬張表

mob64ca1403c772 - vm archive擴容

向量檢索 - 如何通過HTTP API檢索Doc

AI領域佈道師 - hadoop兩個服務器遷移方案

數據分析家 - MySql技術棧

百度Geek説 - 用增結算數倉化改造：在/離線調度系統的構建與應用

mob64ca14193248 - 大數據培訓hive數倉存儲格式詳解_hive一次能insert多少條

饕餮大數據 - 【Knox編譯】webhdfs-test 依賴收斂衝突問題處理

Product

Company

Support

Company