大數據

標籤

貢獻412

3687

05:15 PM · Oct 25 ,2025

tech 頭像

elhix0bg 頭像

u_15844731 頭像

dolphinscheduler 頭像

ververica 頭像

seatunnel 頭像

zhaoqianglaoshi 頭像

huikaichedemianbao 頭像

@tech

暱稱青雲交技術圈

Last seen
@nebulabio

暱稱北京辰輝創聚生物

Last seen
@u_16272508

暱稱事辯天下

Last seen
@elhix0bg

暱稱阿里雲大數據AI

Last seen
@u_15844731

暱稱阿森CTO

Last seen
@u_14767244

暱稱u_14767244

Last seen
@dolphinscheduler

暱稱海豚調度

Last seen
@ververica

暱稱ApacheFlink

Last seen
@seatunnel

暱稱SeaTunnel

Last seen
@zhaoqianglaoshi

暱稱趙渝強老師

Last seen
@huikaichedemianbao

暱稱合合技術團隊

Last seen
@u_15591410

暱稱我就是不長肉而已

Last seen

@大數據 / 博客 RSS 訂閱

q_bit 頭像

Dec 09 2025

qbit - 面向學科領域的網絡信息資源深度聚合與服務研究——Part1（qbit學習記錄）

圖書信息《面向學科領域的網絡信息資源深度聚合與服務研究》項目背景本書是國家社科基金重大項目“面向學科領域的網絡信息資源深度聚合與服務研究”的結項成果，孫建軍教授是該項目的首席專家。回目錄第一部分概述 1 學科資源聚合與網絡導航 “聚合”在《現代漢語詞典》中意為“聚集到一起”，在信息科學中指的是將數據進行清洗、篩選、分析以得到所需結果的過程。 1.1 學科資源傳

zhangfeidezhu 頭像

Jul 01 2023

張飛的豬 - 數據倉庫(13)大數據數倉經典最值得閲讀書籍推薦

從事數倉工作，在工作學習過程也看了很多數據倉庫方面的數據，此處整理了數倉中經典的，或者值得閲讀的書籍，推薦給大家一下，希望能幫助到大家。建議收藏起來，後續有新的書籍清單會更新到這裏。書籍推薦《數據倉庫工具箱(第3版)——維度建模權威指南》本書會介紹基本知識，然後逐個討論具體實例內容，最後進行綜合總體分析，在內容的結構方面很有特色。本書涉及的行業較多，但這些內容從不同角度體現了數據倉庫的

大數據處理 , 大數據 , etl , 書籍

Dec 15 2025

clghxq - 二三級索引表存儲路徑與存儲方式

筆記第十一章 EXT2文件系統 EXT2文件系統 The Second Extended File System (ext2)文件系統是Linux系統中的標準文件系統，是通過對Minix的文件系統進行擴展而得到的，其存取文件的性能極好。在ext2文件系統中，文件由inode（包含有文件的所有信息）進行唯一標識。 EXT2文件系統數據結構通過mk

二三級索引表存儲路徑與存儲方式 , 文件描述符 , 大數據 , 文件系統 , 數據倉庫 , 描述符

Dec 23 2025

向量檢索 - 通義深度搜索-操作指南

應用開通 1.在阿里雲百鍊控制枱的應用廣場中點擊通義深度搜索卡片，進入應用詳情。 2.首次試用時，點擊右上角免費開通完成應用開通。應用管理點擊我的應用進入應用管理頁面。頁面展示所有已創建的應用和應用key等信息，首次使用需要新增應用。應用配置點擊應用卡片或新增應用進入應用配置界面。

阿里巴巴 , 大數據 , yyds乾貨盤點 , 深度搜索 , 數據倉庫 , AI , 人工智能 , 大模型

Jan 05 2026

向量檢索 - 如何通過HTTP API刪除Doc

本文介紹如何通過HTTP API，根據id列表刪除Collection中已存在的Doc。説明如果指定id不存在，則刪除對應Doc的操作無效。前提條件已創建Cluster：創建Cluster。已獲得API-KEY：API-KEY管理。 Method與URL HTTP

大數據 , yyds乾貨盤點 , 數據倉庫 , 向量 , 數據庫 , 人工智能 , 檢索 , 大模型

kpaas 頭像

Nov 20 2025

KPaaS集成擴展平台 - 數據治理：多系統中數據孤立的困境與突破

當今，企業IT系統的數量和複雜度呈指數級增長。CRM、ERP、HRM、SCM、財務系統、電商平台……每個業務單元都在構建或引入最適合自身需求的應用系統。這種“百花齊放”的局面固然提升了局部效率，卻也悄然埋下了一個隱患：數據孤島。同一個客户，在銷售系統裏叫“A公司”，在合同系統裏是“Alpha Co.”，到了財務系統又變成了“甲方A”；同一款產品，在庫存系統中的編碼為P10

主數據管理 , 大數據 , yyds乾貨盤點 , MDM , 數據倉庫 , 數據一致性 , 數據治理 , 數據集成與應用集成

Dec 02 2025

mob64ca140a1f7c - Spark指南——第二章：SparkCore——RDD編程（2）

概述從高層次來看，每個 Spark 應用程序都包含一個驅動程序，該程序運行用户的主函數並在集羣上執行各種並行操作。Spark 提供的核心抽象是彈性分佈式數據集（RDD），即一種分佈在集羣節點間的元素集合，可被並行操作。RDD 可通過以下方式創建：從 Hadoop 文件系統（或任何其他 Hadoop 支持的文件系統）中的文件起步，或基於驅動程序中的

spark , 大數據 , 分佈式 , Python

Dec 01 2025

墨染青衫 - log_archive_dest_1 參數查看

1：在類中要添加日誌信息： private static final Logger log = LogManager.getLogger(ShopCartAction.class); log.info();//普通信息 log.error();//錯誤信息打印 log.debug()

大數據 , 數據 , hive , 獲取參數 , 正則表達式

dolphinscheduler 頭像

Nov 19 2025

海豚調度 - 圖解 Apache DolphinScheduler 如何配置飛書告警

飛書創建羣，並添加自定義機器人記住這個【Webhook】後面配置【海豚告警】的時候會用到。配置告警在【安全中心】中，選擇【告警實例管理】中的【創建告警實例】。在【選擇插件】中，選擇【Feishu】，將前面的【Webhook】填進【Web鈎子】。然後，在【安全中心】的【告警組管理】中，創建對應的告警組：這樣，告警組就創建好了

dolphinscheduler , 大數據 , 開發者 , 告警

Dec 01 2025

mob64ca1404ed65 - 索引字段加分詞器

主要用到lucene索引技術及盤古分詞技術，可創建索引，修改索引，刪除索引等全套代碼。此代碼直接複製調用即可，注意生成索引文件夾（SearchIndex），如果大家有什麼不明白的可以直接來問我，715417165 qq 主要業務調用： using Lucene.api; using System; using System.

lucene , 大數據 , 索引字段加分詞器 , 索引 , 數據倉庫 , 全文檢索 , 技術

zhaoqianglaoshi 頭像

Oct 25 2024

趙渝強老師 - 【趙渝強老師】Hive的內部表與外部表

Hive是基於HDFS之上的數據倉庫，它把所有的數據存儲在HDFS中，Hive並沒有專門的數據存儲格式。當在Hive中創建了表，可以使用load語句將本地或者HDFS上的數據加載到表中，從而使用SQL語句進行分析和處理。 Hive的數據模型主要是指Hive的表結構，可以分為：內部表、外部表、分區表、臨時表和桶表，同時Hive也支持視圖。視頻講解如下： https://www.bilibili

大數據 , hive , 數據倉庫 , hadoop , SQL

Nov 28 2025

mob64ca13f83523 - 給yarn用户權限

Oracle 權限設置一、權限分類：系統權限：系統規定用户使用數據庫的權限。（系統權限是對用户而言)。實體權限：某種權限用户對其它用户的表或視圖的存取權限。（是針對表或視圖等數據庫對象而言的）。二、系統權限管理： 1、系統權限分類：　　DBA:

大數據 , yarn , 系統權限 , SQL , 給yarn用户權限

Dec 01 2025

數據小探 - 數據庫異步索引

一般情況下，當我們的程序有I/O 操作需要寫磁盤時，程序會等待I/O完成後才把程序控制還給用户。由於I/O是相對比較慢的，所以這有可能會成為性能瓶頸。 SQLite的異步I/O使用一個單獨的線程完成I/O。雖然這樣沒有減少系統資源的使用，但是控制權立刻返回給用户，更好的用户體驗。 1. 數據庫ACID中的D 使用異步I/O帶來的一個問題就是失去了數據庫的

數據庫異步索引 , 大數據 , 數據倉庫 , 文件鎖 , sqlite , SQL

selectdb 頭像

Sep 11 2024

SelectDB技術團隊 - SelectDB 多計算集羣核心設計要點揭秘與場景應用

需求起源 SelectDB 設計多計算集羣架構初衷主要源於兩類典型的使用場景：寫入與讀取隔離：傳統數倉架構中，數據的寫入和讀取在同一個計算集羣，當遇到業務寫入高峯期或突增的寫入壓力時，容易因資源相互搶佔影響查詢服務的性能和穩定性。如果能引入多個計算集羣，通過獨立的計算集羣分別進行寫入、讀取操作，即使在寫入壓力非常高時，也可放心執行計算任務，無需擔心影響到服務的穩定性。在線業務和離線業務隔

大數據 , 數據倉庫 , 數據庫 , 雲原生 , 集羣

Dec 01 2025

話不是這麼説的 - 正則搜索引號裏內容

學了幾天正則，差不多該總結整理寫成果了，之前就想寫語法高亮匹配來着，不過水平不夠，看着例子都不理解。今天就分析下次碳酸鈷和 Barret Lee 語法高亮實現。之前看的時候只覺的神奇，特別是下面那個一步一步分開匹配的例子，更是霸氣測漏，不過作者也説了，分開只是為了演示方便，可以很直觀的看到這一步匹配了什麼，不然一步到位匹配完成，

正則搜索引號裏內容 , 正則 , 大數據 , 字符串 , 數據倉庫 , HTML

Dec 26 2025

雲上漫談 - 緊跟“十五五”規劃，雲端股份在算力行業的新基建實踐

2025年10月28日，《中共中央關於制定國民經濟和社會發展第十五個五年規劃的建議》正式發佈。其中明確提出：“適度超前建設新型基礎設施，推進信息通信網絡、全國一體化算力網、重大科技基礎設施等建設和集約高效利用。”這一政策導向不僅為我國數字經濟發展錨定了方向，也為算力行業注入了強勁動能。作為數字經濟時代的“水電煤”，算力正成

算力中心 , gpu算力 , 大數據 , 通信網絡 , 數據倉庫 , 人工智能 , 基礎設施

Nov 15 2025

hackernew - 盤搜索引擎入口

雲盤搜索助手是一款免費的網盤資源搜索工具，提供 6 大搜索引擎以便對所需資源的查找。使用簡單，打開軟件後可直接在搜索框內鍵入關鍵詞，然後點擊搜索/回車按鈕進行查找。點擊搜索/回車後等待片刻即可在下方看到各個搜索引擎查找到的結果，各種軟件、教程、模板、視頻等資源均可以使用該工具快速查找到。雙擊資源的下

網盤 , 曲奇雲盤資源搜索引擎 , 搜索引擎 , 盤搜索引擎入口 , 大數據 , 搜索 , 數據倉庫

Dec 15 2025

mob64ca141a2a87 - Kinbana在哪配置索引對應類

什麼是QueryMapping KingbaseES Query Mapping 是一種查詢映射功能。有過SQL優化經歷的人都知道，對於有些SQL性能問題，可能需要涉及到SQL層面的修改，這不僅麻煩，而且在已上線的系統還存在很大的風險。KingbaseES V8R6 提供了query mapping功能，用户可以通過SQL映射，可以避免直接修改SQL的過程。 Quer

查詢語句 , 大數據 , 數據倉庫 , Kinbana在哪配置索引對應類 , 映射關係 , SQL

cuicui_623c4b541e91e 頭像

Nov 16 2025

Datenlord - 從循環到融合：理解 Fused MoE 算子原理（一）

引言在當今大語言模型（LLM）的浪潮中，模型規模的持續擴張是提升性能的關鍵驅動力。然而，隨着模型參數量的激增，訓練和推理的計算成本也隨之飆升。為了解決這一挑戰，混合專家模型（Mixture-of-Experts, MoE）架構應運而生，並已成為許多前沿模型（如 Mixtral 8x7B, DeepSeek-V3）的核心技術之一。 MoE 的核心思想非常巧妙：它不再要求模型的每一部分處理所有的輸入

大數據 , 硬件加速 , 硬件

Dec 05 2025

bigrobin - 新一代數據湖存儲技術Apache Paimon入門Demo_Leonardo

一、paimon部署(每個節點都需要部署，節點為xx.xx.xx.xx1-xx.xx.xx.xx5五個節點) 1.1 添加JAR包在/opt/cloudera/parcels/CDH/lib/hive/auxlib/目錄下添加jar包沒有auxlib就創建auxlib文件夾 mkdir /opt/clou

大數據 , jar , hive , 架構 , SQL

Dec 02 2025

archangle - easypoi獲取索引

1準備好要導入的Excel，注意Excel的標題要和domain中的@Excel(name = "標題")一樣 1 導入驗證包支持 !-- JSR 303 規範驗證包 -- dependency groupIdorg.hibernate/groupId artifactIdhibernate-valid

大數據 , 數據 , 數據倉庫 , easypoi獲取索引 , hibernate , 用户名

zhaoqianglaoshi 頭像

Oct 28 2024

趙渝強老師 - 【趙渝強老師】Hive的分區表

Hive的分區表跟Oracle、MySQL中分區表的概念是一樣的。當表上建立了分區，就會根據分區的條件從物理存儲上將表中的數據進行分隔存儲。而當執行查詢語句時候，也會根據分區的條件掃描特定分區中的數據，從而避免全表掃描以提高查詢的效率。Hive分區表中的每個分區將會在HDFS上創建一個目錄，分區中的數據則是該目錄下的文件。在執行查詢語句時，可以通過SQL的執行計劃瞭解到是否在查詢的時候掃描的特定的

大數據 , hive , hadoop , SQL

Dec 01 2025

編程小天才 - Ubuntu連不上hive

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。 0 hadoop搭建在搭建hive之前

大數據 , hive , hadoop , Ubuntu連不上hive , apache

tech 頭像

Nov 15 2025

青雲交技術圈 - Java 大視界 -- Java 大數據在智能家居能源消耗模式分析與節能策略制定中的應用

(centerJava 大視界 -- Java 大數據在智能家居能源消耗模式分析與節能策略制定中的應用/center) 引言嘿，親愛的 Java 和大數據愛好者們，大家好！我是CSDN（全區域）四榜榜首青雲交！在科技的洶涌浪潮中，Java 大數據技術宛如一顆璀璨奪目的明珠，於眾多領域綻放出耀眼光芒。如今，隨着智能家居的迅猛普及，人們的生活變得愈發便捷，但同時也引發了不容

spark , 大數據 , yyds乾貨盤點 , 數據 , 智能家居 , Java大數據 , 能源消耗 , JAVA