tag 數據倉庫

標籤
貢獻158
157
01:08 PM · Nov 03 ,2025

@數據倉庫 / 博客 RSS 訂閱

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速

MaxCompute , 大數據 , 數據倉庫 , 數據遷移 , 阿里雲 , SQL

收藏 評論

mob64ca1406d617 - doris中bitmap索引

在Oracle中,索引基本分為以下幾種:B*Tree索引,反向索引,降序索引,位圖索引,函數索引,interMedia全文索引等,其中最常用的是B*Tree索引和Bitmap索引。 (1)、與索引相關視圖查詢DBA_INDEXES視圖可得到表中所有索引的列表;訪問USER_IND_COLUMNS視圖可得到一個給定表中被索引的特定列。 (2)、組

doris中bitmap索引 , 大數據 , 數據 , 操作符 , 數據倉庫 , 位圖

收藏 評論

阿森CTO - VSCode部署Ubantu雲服務器,與Xshell進行本地通信文件編寫

@TOC 📝前言 本文目的是講使用Vscode連接Ubantu,與本地Xshell建立通信同步文件編寫。 查看本機系統相關信息: cat /etc/lsb* DISTRIB_ID=Ubuntu: 表示這是 Ubuntu 發行版。 DISTRIB_RELEASE=22.04: 表示這是 Ubuntu

發行版 , 大數據 , yyds乾貨盤點 , 數據倉庫 , 打開文件 , Ubuntu

收藏 評論

mob64ca13fe9c58 - 科學引文索引WOS

SCI EI ISTP ISR SSCI簡介 《科學引文索引》(SCI) 《科學引文索引》(Science Citation Index,簡稱SCI)是美國科學情報研究所出版的一種世界著名的綜合性科技引文檢索刊物。該刊於1963年創刊,原為年刊,1966年改為季刊,1979年改為雙月刊。多年來,SCI數據庫不斷髮展,已經成為當代世界最重要的大型數據庫,被列在國際著名檢

工程技術 , 大數據 , 技術類 , 數據倉庫 , 科學引文索引WOS , ci

收藏 評論

mob64ca14038b36 - Ssearc索引器作用

索引器允許類或者結構的實例按照與數組相同的方式進行索引取值,索引器與屬性類似,不同的是索引器的訪問是帶參的。 索引器和數組比較: (1)索引器的索引值(Index)類型不受限制 (2)索引器允許重載 (3)索引器不是一個變量 索引器和屬性的不同點 (1)屬性以名稱來標識,索引器以函數形式標識 (2)索引器可以被重載,屬性不可以 (3

索引器 , Test , System , 大數據 , 數據倉庫 , Ssearc索引器作用

收藏 評論

南大通用GBase - 南大通用GBase 8a_SENSITIVE_DIRECTORY_ACCESS_DISABLE 參數介紹

參數名:_sensitive_directory_access_disable參數 參數值:字符串類型,支持正則、分隔符號,默認ssh 參數可見範圍:不可被show 功能説明: 安全漏洞審查中認為導出數據到/home/xxx/.ssh/目錄中可能存在安全隱患, 增加_sensitive_di

GBase 8a , 文件名 , 大數據 , 字符串 , 數據倉庫 , 默認值

收藏 評論

KPaaS集成擴展平台 - 主數據實時同步:為什麼 CIO 要優先考慮?

越來越多 CIO 開始意識到:技術架構可以迭代,應用系統可以替換,但數據的一致性與可信度,才是決定數字化成敗的底層基石。而在所有數據類型中,主數據(Master Data)——如客户、供應商、物料、組織架構等核心業務實體——因其跨系統、高複用、強關聯的特性,成為數據治理的“牛鼻子”。 然而,現實卻令人憂心:銷售在 CRM 中錄入的客户信息,與財務在 ERP 中使用的客户編碼

主數據管理 , 大數據 , yyds乾貨盤點 , 數據孤島解決方案 , MDM , 數據倉庫 , 異構數據整合 , 數據一致性

收藏 評論

雲端小悟空 - 訓練特徵索引

之前介紹的StringIndexer是針對單個類別型特徵進行轉換,倘若所有特徵都已經被組織在一個向量中 ,又想對其中某些單個分量進行處理時,Spark ML提供了VectorIndexer類來解決向量數據集中的類別 性特徵轉換。通過為其提供maxCategories超參數,它可以自動識別哪些特徵是類別型的,並且將原始 值轉換為類別索引。

spark , 數據集 , 大數據 , 訓練特徵索引 , 數據倉庫 , 人工智能

收藏 評論

secondriver - 數據倉庫建設-分層和優化

1. 為什麼要對數倉進行分層? 在複雜的業務場景和多源異構的數據環境下,數據倉庫通過分層設計實現以下目標: 提升可維護性:避免所有數據混雜在一起,降低系統耦合度。 增強可管理性:每一層職責清晰、邊界明確,便於團隊協作與問題追蹤。 提高複用性:標準化處理後的中間層數據可被多個上層應用共享使用。 保障數據質量:逐層清洗、校驗、聚合,確保最

數倉分層 , 大數據 , 數據倉庫 , 用AIGC寫一篇爆文

收藏 評論

jordana - 二級索引存儲多少數據

介紹 Ext2文件系統全稱為Second Extended FileSystem(第二擴展文件系統),既然是第二個那麼就存在第一個,第一個就是擴展文件系統 Extended FileSystem。當然還有Ext3和Ext4,Ext4還是很不錯的的文件系統,但是brtfs是目前的主流Linux文件系統。 磁盤佈局 名詞 引

大數據 , 文件系統 , 數據塊 , 數據倉庫 , Linux , 系統架構 , 二級索引存儲多少數據

收藏 評論

SelectDB技術團隊 - Apache Doris + Paimon 快速搭建指南|Lakehouse 使用手冊(二)

湖倉一體(Data Lakehouse)融合了數據倉庫的高性能、實時性以及數據湖的低成本、靈活性等優勢,幫助用户更加便捷地滿足各種數據處理分析的需求。在過去多個版本中,Apache Doris 持續加深與數據湖的融合,已演進出一套成熟的湖倉一體解決方案。 為便於用户快速入門,我們將通過系列文章介紹 Apache Doris 與各類主流數據湖格式及存儲系統的湖倉一體架構搭建指南,包括 Hudi、Ic

數據倉庫 , 學習方法 , 數據分析 , paimon , 數據湖

收藏 評論

北京辰輝創聚生物 - 細胞因子風暴:機制、研究與體外模型構建策略

在生命科學和免疫學研究中,“細胞因子風暴”是一個無法忽視的高頻術語。它不僅是重症感染(如COVID-19)、膿毒症、CAR-T治療等過程中危及生命的核心病理生理事件,更是連接基礎免疫與臨牀轉化的關鍵研究節點。從科研試劑的應用角度,深入理解其發生機制並建立可靠的體外研究模型,對於藥物篩選、致病機理探索和安全性評估具有至關重要

體外模型 , 大數據 , 細胞因子 , 數據倉庫 , 生長因子 , CRS , 細胞因子風暴

收藏 評論

北京辰輝創聚生物 - 重組蛋白:從基因序列到藥物設計的核心引擎

在現代藥物開發的宏偉藍圖中,重組蛋白已從一個前沿生物技術概念,演變為不可或缺的核心工具與目標。它們如同高度精密的分子鑰匙,不僅幫助科學家解鎖疾病的機制,其本身更是構成新一代療法的主體。理解重組蛋白的技術內涵,是從分子層面洞察現代藥物設計邏輯的起點。 一、 重組蛋白:精準設計的分子機器 重組蛋白是指利用重組DNA技術,在特定的宿主系統中表達和生產的蛋白質

蛋白表達 , 蛋白純化 , 大數據 , Fc融合蛋白 , 數據倉庫 , 翻譯後修飾 , 人源化抗體

收藏 評論

墨色天香 - vba 根據紙張索引號返回紙張的釐米單位的寬高

Sub glkCurrentDocPageSetup() Dim glkDoc As Document '定義變量 Set glkDoc = Application.ActiveDocument '設置為當前文檔 With glkDoc '設置文檔參數 With .PageSetup '設置【頁面設置】參數 .Orien

經驗分享 , 大數據 , 數據倉庫 , 邊距 , ci , 縮進

收藏 評論

信息流星 - db2 刪除分區報錯 set integrity

海量信息即大規模數據,隨着互聯網技術的發展,互聯網上的信息越來越多,如何從海量信息中提取有用信息成為當前互聯網技術發展必須面對的問題。 在海量數據中提取信息,不同於常規量級數據中提取信息,在海量信息中提取有用數據,會存在以下幾個方面的問題: (1)數據量過大,數據中什麼情況都可能存在,如果信息數量只有20條,人工可以逐條進行查找、

海量數據 , 大數據 , 字符串 , 數據 , 算法 , 數據倉庫

收藏 評論

智慧編織者 - 數據倉庫 etl 工具 腳本 kafka 數據倉庫etl開發過程

本文是關於計劃、設計和實現基本數據倉庫解決方案的系列文章的第 3 部分,將設計和實現倉庫 ETL 過程,並瞭解倉庫的性能和安全問題。 請多多支持作者作品RKWeb1.1 asp.net開發模板! 有效提高asp.net開發效率60%以上的代碼框架! 類似java的struts+spring+hirbenate 下

商業智能 , 大數據 , 數據倉庫 , 數據庫 , db2 , ibm

收藏 評論

阿森CTO - linux指令與實踐文件編寫

@TOC 📝前言 本節阿森將和你一起深入淺出的學習簡單幾條指令,快速上手在linux寫代碼,同時更好的理解指令記憶 🌠 linux目錄結構 在linux系統中,磁盤上的文件和目錄被組成一個樹,每個節點都是目錄或文件,像是一個多叉樹的層次結構。如圖所示: 以上只是展示目錄的結構是目錄樹的結構,以下是 Linux 文件目錄結構的主要組

大數據 , yyds乾貨盤點 , 搜索 , 數據倉庫 , Linux , Css

收藏 評論

u_15022783 - 國產工業時序數據庫—DolphinDB的技術突破與實踐優勢

1. 工業數字化轉型的“數據焦慮” 隨着工業物聯網(IIoT, Industrial Internet of Things)浪潮的全面深入,全球製造業正經歷一場深刻的數字化轉型(Digital Transformation)。數以億計的傳感器和智能設備被部署到生產一線,形成了龐大的工業數據網絡。這場變革的基石——海量、高頻的工業時序數據,也成為了企業邁向智能化生產最大的“數

大數據 , 數據 , 毫秒級 , 數據倉庫 , 高可用

收藏 評論

u_15444077 - 利特爾法則(little' law)在軟件開發領域的應用

本文分享自天翼雲開發者社區《利特爾法則(little' law)在軟件開發領域的應用》.作者:王****淋 一、引例 先考慮一個小學數學問題: - a)某小學每屆1000名學生,6年制,請估算此刻該學校內學生總人數。 很明顯,6個年級每個都是1000,學生人數為1000*6=6000。 這就是利特爾法則的直觀體現。看上去好無聊,這還用搞個法則來麼?事

大數據 , 操作系統 , 數據倉庫

收藏 評論

小題大作 - VMFS索引

什麼是索引 索引時數據庫的一種數據結構,數據庫與索引的關係可以看作書籍和目錄的關係。當用户通過索引查找數據時,好比用户通過目錄查詢某章節的某個知識點。這樣可以幫助用户提高查找速度。所以,索引可以提高數據庫的性能。 索引的分類 從物理存儲角度: 聚簇索引和非聚簇索引 從數據結構角度: B-樹、B+

結點 , 大數據 , 數據 , VMFS索引 , 數據倉庫 , 數據庫

收藏 評論

署署愛測評 - 企業數據採集系統的構建思路與技術方案探討

在數字化轉型過程中,企業普遍面臨數據源分散、格式不一、實時性要求高等挑戰。數據採集作為數據價值鏈的起點,其技術選型與架構設計直接影響後續數據治理與應用的效率與成本。本文旨在從技術原理與工程實踐角度,分析構建企業級數據採集系統時需考量的核心要素與可能的實現路徑。 一、數據採集的核心挑戰與技術考量數據採集並非簡單的數據搬運,其複雜性主要源於業務環境的多樣性。常見挑戰包括:

數據源 , 大數據 , 數據 , 運維 , 數據倉庫

收藏 評論

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota 策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra 作為東南亞互

MaxCompute , 大數據 , 數據倉庫 , 阿里雲 , 數倉遷移

收藏 評論

mob64ca13feda16 - simulink索引模塊

Simulink是有定點化工具(fixed-point tool),沒有用過,因為我想生成一個不帶有浮點數的代碼的話只要把所有的數據類型定義為非浮點的形式就好了。 首先 要做的是找到模型中的浮點數(當然如果建模的時候沒有對數據類型進行特別設置的話,默認的數據類型都是double型的浮點數)。找浮點數有兩個方法:

定點化 , 數據類型 , 大數據 , Simulink , 數據倉庫 , simulink索引模塊

收藏 評論

lingyuli - 多索引組合值不可以唯一嘛

長期以來,Lucene在搜索領域的壟斷地位無人能及,基於Lucene之上的Elastic Search與Solr 也是家喻户曉的產品;錄信數據庫最初的版本也是基於Lucene來實現的,在設計之初經常會遇到跟solr、es同樣的問題。如面對幾十億的數據就遇到內存爆掉的問題,此時CPU與IO都飆到系統極限;100億的數據就需要100多台512G的大內

lucene , 大數據 , 索引 , 數據倉庫 , 數據庫 , olap , 多索引組合值不可以唯一嘛

收藏 評論