tag 數據倉庫

標籤
貢獻158
142
01:08 PM · Nov 03 ,2025

@數據倉庫 / 博客 RSS 訂閱

u_15444077 - 從random隨機數看驗證碼重複數字

本文分享自天翼雲開發者社區《從random隨機數看驗證碼重複數字》.作者:王****淋 ## 推導: 1. 有6個不同數字 - (0個重複數字: 1+1+1+1+1+1): $$p(6) = C_{10}^6 * 6! \div 10^6$$ 2. 有5個不同數字 - (某個數字重複了2次: 1+1+1+1+2): $$p(5) = (\

大數據 , 數據倉庫

收藏 評論

colddawn - DB where 字段 is null 會走索引嘛

1.對查詢進行優化,要儘量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中對字段進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,如: select id from t where num is null 最好不要給數據庫留NULL,儘可能的使用NO

字段 , 大數據 , 存儲過程 , 數據倉庫 , bc

收藏 評論

u_14767244 - Apache Doris 在小米統一 OLAP 和湖倉一體的實踐

小米早在 2019 年便引入 Apache Doris 作為 OLAP 分析型數據庫之一,經過五年的技術沉澱,已形成以 Doris 為核心的分析體系,並基於 2.1 版本異步物化視圖、3.0 版本湖倉一體與存算分離等核心能力優化數據架構。本文將詳細介紹小米數據中台基於 Apache Doris 3.0 的查詢鏈路優化、性能提升、資源管理、自動化運維、可觀測等一系列應用實踐。

大數據 , 數據 , 運維 , 數據倉庫 , 物化視圖

收藏 評論

温柔一刀 - goland索引建立

gocolly是用go實現的網絡爬蟲框架,目前在github上具有3400+星,名列go版爬蟲程序榜首。gocolly快速優雅,在單核上每秒可以發起1K以上請求;以回調函數的形式提供了一組接口,可以實現任意類型的爬蟲;依賴goquery庫可以像jquery一樣選擇web元素。 gocolly的官方網站是http://go-colly.org/,提供

github , 大數據 , 數據倉庫 , text , 示例代碼 , goland索引建立

收藏 評論

vivo互聯網 - vivo Celeborn PB級Shuffle優化處理實踐

作者: vivo 互聯網大數據團隊-Wang Zhiwen、Cai Zuguang vivo大數據平台通過引入RSS服務來滿足混部集羣中間結果(shuffle 數據)臨時落盤需求,在綜合對比後選擇了Celeborn組件,並在後續的應用實踐過程中不斷優化完善,本文將分享vivo在Celeborn實際應用過程中對遇到問題的分析和解決方案,用於幫助讀者對相似問題進行參

大數據 , 私藏項目實操分享 , shuffle , RSS , 數據倉庫 , Celeborn

收藏 評論

mob64ca14040d22 - 什麼是收錄索引名稱

seo與檢索密不可分相接,檢索是排行的基本,沒檢索就必須沒排行,選用科學研究的方式查尋儘量精確的百度收錄狀況,是人們從業seo的基礎工作中。如何查尋百度收錄?方式各種各樣,提議各種各樣方法綜合性應用。某些簡易的方法均可查詢系統的實際檢索總數,包含但是不限於應用百度搜索引擎命令,網頁搜索資源服務平台數據庫索引量小工具,普遍的seo查尋小工具等。 一、

搜索引擎 , 大數據 , 數據倉庫 , 什麼是收錄索引名稱 , 百度 , 數據庫索引

收藏 評論

mb69410ac31213c - 華為雲Flexus AI智能體,讓每家企業都擁有開箱即用的AI超能力

AI落地的最後一公里,卡在"用不起來" 2024年,不談AI的企業已被時代拋下。但真正試過的人都知道:大模型很強,落地很難。招不到AI工程師、搞不懂複雜參數、擔心數據泄露、算力成本燒不起……這些痛點讓90%的企業在智能化門口徘徊。Flexus AI智能體的出現,正是要撕掉"高門檻"的標籤——無需開發經驗,無需鉅額投入,20+款經過華為雲驗證的行業Agent,一鍵部署即可讓A

大數據 , 數據 , 數據倉庫 , 調優 , 模態

收藏 評論

誤會一場 - 搜索分詞器和索引分詞器

三大主流分詞方法:基於詞典的方法、基於規則的方法和基於統計的方法。 1、基於規則或詞典的方法 定義:按照一定策略將待分析的漢字串與一個“大機器詞典”中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。 按照掃描方向的不同:正向匹配和逆向匹配 按照長度的不同:最大匹配和最小匹配 1.1

最大匹配 , 大數據 , 中文分詞 , NLP , 數據倉庫 , 未登錄詞 , 搜索分詞器和索引分詞器

收藏 評論

夢想啓航吧 - 150g存儲會消耗多少存儲建立索引

給你100M空間你可以做多少事?一起來分析吧!100M的網站空間到底能放多少內容?" 很多用户對此問題還不甚瞭解,下面我就就此問題解釋一下吧! 100M的空間,就目前的存儲設備來説,簡直微不足道。但對於一般建站的用户來説,還是可以的。雖不敢説綽綽有餘,但放一個小型網站還是足夠了的。 下面我們一起來具體分析一下這100M的空間到

150g存儲會消耗多少存儲建立索引 , 大數據 , 建站 , 數據倉庫 , 數據庫 , bc

收藏 評論

阿森CTO - Linux管理文件與處理數據

@TOC 📝前言 本文將介紹Linux系統中的常用命令:mv、cat、echo、重定向、head和tail,主要用於文件管理和數據處理。重點講解mv命令和重定向的示例,最後演示如何用head和tail快速提取大型文件中的指定行。 🌠 mv指令(重要): mv命令是move的縮寫,可以用來移動文件或者將文件改名(move (rename) fil

文件描述符 , 大數據 , yyds乾貨盤點 , 數據倉庫 , 重定向 , 標準輸出

收藏 評論

lu952450497 - 數據開發中的技術選型:從業務訴求到方案落地的全流程思考

企業的數據開發體系,往往伴隨着業務規模增長逐步演進。數據的產生源頭複雜、數據量不斷擴大、業務部門對數據的依賴程度提高,導致數據開發能力是否合理選型,將直接影響數據平台的穩定性、擴展性以及成本投入。 一、需求分析是技術選型的起點 在很多實際項目中,技術選型失敗主要不是因為技術不好,而是對實際訴求理解不清。技術選型之前應明確以下問題: 數據規

技術選型 , 大數據 , 數據 , hive , 數據倉庫

收藏 評論

cnolnic - 關係型數據庫能換成分佈式數據庫麼

在SQL Server中的關係型數據倉庫分區策略(1) http://developer.51cto.com 2007-02-27 17:01 Gandhi Swaminathan 51CTO.com 我要評論(0) 分區,在Microsoft SQL Server中,便於

大數據 , 數據倉庫 , microsoft , 關係型數據庫能換成分佈式數據庫麼 , 磁盤 , SQL Server

收藏 評論

liutao988 - HSSFColor的索引顏色

本文介紹和比較幾種常見圖片文件格式的優缺點,並介紹不同的文件格式對Web應用程序性能的影響。 有損vs無損 圖片文件格式有可能會對圖片的文件大小進行不同程度的壓縮,圖片的壓縮分為有損壓縮和無損壓縮兩種。 有損壓縮。指在壓縮文件大小的過程中,損失了一部分圖片的信息,也即降低了圖片的質量,並且這種損失是不可逆的,我們不可能從有一個有損壓縮過的圖片中恢復出全

HSSFColor的索引顏色 , 大數據 , 圖片格式 , 數據倉庫 , 文件大小 , svg

收藏 評論

廣分檢測院王經理 - 膠水/粘合劑運輸條件鑑定書辦理流程

貨物運輸條件鑑定書辦理 海運運輸危險性鑑定書(通常指《貨物運輸條件鑑定書》)是用於判斷貨物是否屬於危險品及其運輸分類的重要文件,由中國海關、海事局或認可的機構出具。 這個多元化由第三方機構辦理,流程如下: 選擇鑑定機構:廣分檢測院王經理 準備送檢樣品和資料: 樣品:約100-2000克(毫升)的最終銷售包裝產品。具體數量

包裝類 , 大數據 , 數據倉庫

收藏 評論

事辯天下 - 2025年CSR中國教育榜各大獎項正式揭曉 124家企業入圍“最佳責任企業品牌”

2025年11月26日,“責任100|2025年第九屆CSR中國教育榜”獎項正式發佈。共有124家企業入圍“最佳責任企業品牌”,超過100家全國媒體、地方媒體和專業媒體共同發佈。本屆教育榜共有272家國內外領先企業參與申報,經嚴格評審,124家企業的142個優秀項目脱穎而出。 典範項目引領實踐,戰略融合成關鍵趨勢 在多輪次評審中,立邦中國、TCL科技集團股份有

大數據 , 數據倉庫 , 人工智能 , 保護地

收藏 評論

北京辰輝創聚生物 - 重組蛋白常用標籤技術解析:科研級蛋白表達與純化中的關鍵工具

在生命科學基礎研究中,重組蛋白是結構生物學、分子互作分析、功能研究等實驗的重要研究工具。為了實現對目標蛋白的高效表達、純化、檢測與分析,科研人員通常在重組蛋白的編碼序列中引入特定的蛋白標籤(protein tags)。這些標籤作為科研試劑體系中的關鍵組成部分,在不改變蛋白本質功能的前提下,為實驗流程提供了高度標準化和可重複的技術支持。 一、重組蛋白標籤的基本概念

FLAG標籤 , 大數據 , GST標籤 , 數據倉庫 , 熒光蛋白標籤 , His標籤 , 科研試劑

收藏 評論

北京辰輝創聚生物 - 重組融合蛋白技術概述

重組融合蛋白的基本概念 重組融合蛋白是通過基因工程技術將兩個或多個不同基因的編碼序列連接,在宿主細胞中表達產生的單一多肽鏈。這種技術使得研究人員能夠將不同蛋白質的功能域進行組合,創造出具有新特性的蛋白質分子。與普通重組蛋白相比,融合蛋白在設計上具有更高的靈活性和功能性。 從結構組成來看,重組融合蛋白通常包含目標

蛋白表達 , 可溶性蛋白 , 大數據 , 蛋白檢測 , 數據倉庫 , His標籤 , 親和層析

收藏 評論

mob64ca1416b5a8 - go2rtc 倉庫

日前,中國信通院第十五批“可信大數據”評估評測結果正式公佈。GBASE南大通用雲數據倉庫系統[簡稱:GCDW]V9.8以卓越性能通過第十五批“可信大數據”雲原生湖倉一體數據平台基礎能力評測。 中國信通院“可信大數據”作為國內首個面向大數據產品的第三方權威測評,從基礎功能、性能、可靠性、安全等多維度全面考察企業級大數據產品能力,是影響大數據領

大數據 , go2rtc 倉庫 , 雲計算 , 數據倉庫 , 雲原生

收藏 評論

mob64ca1407216b - 金融風控數據倉庫

中國金融科技50強之“安心de利”風控模式 所屬公司:北京易融德利網絡科技有限公司 主要產品:安心de利(Web+APP)、雲上牛(Web+APP) 產品介紹:“安心de利”2014年7月上線,是一款專注於農牧業的產業鏈金融平台。產品利用肉牛、貂皮、生豬等養殖行業企業的產業鏈下游信息及交易數據,構建大數據分析平台

互聯網金融 , 大數據 , 科技 , 金融 , 數據倉庫 , 金融科技 , 金融風控數據倉庫

收藏 評論

mob64ca14085c24 - 關係型數據庫如何存儲時序數據

關係可以有三種類型:基本類型(基本表或者基表)、查詢表和視圖表 基本類型具有以下6條性質: 1.列是同質的(homogeneous),即每一列中的分量是同一類型的數據,來自同一個域; 2.不同的列可出自同一個域,稱其中的每一列為一個屬性,不同的屬性要給予不同的屬性名。當兩種不同的屬性的值取自同一個域時,要賦予屬性不同的屬性名;

數據項 , 大數據 , 數據 , 數據倉庫 , 數據庫 , 關係型數據庫如何存儲時序數據 , 基本類型

收藏 評論

Aloudata - AI 數據分析如何保障準確性?構建可信數據基礎成為關鍵

前言: 在數字化轉型浪潮中,企業數據分析決策的時效性與準確性已成為競爭勝負的關鍵。隨着“Data + AI”融合加深,ChatBI 產品爆發式增長。但在當前市場中,大多數 ChatBI 產品依賴大模型直接生成 SQL 的技術路徑(NL2SQL),普遍面臨“大模型幻覺”導致的數據不可信問題——模型可能生成與事實不符、計算邏輯矛盾、口徑不一致甚至完全虛構的數據結果,直接影響分析

大數據 , 數據 , 數據倉庫 , dataagent , 數據分析 , 智能問數 , chatbi

收藏 評論

阿森CTO - Ext系列文件系統--Ext2 文件系統的認識與構成

@TOC 📝ext2 ⽂件系統 🌠 宏觀認識 所有的準備⼯作都已經做完,是時候認識下⽂件系統了。我們想要在硬盤上儲⽂件,必須先把硬盤格式化為某種格式的⽂件系統,才能存儲⽂件。⽂件系統的⽬的就是組織和管理硬盤中的⽂件。在Linux 系統中,最常⻅的是ext2系列的⽂件系統。其早期版本為ext2,後來⼜發展出ext3和ext4。ext3 和ext4雖然對

大數據 , yyds乾貨盤點 , 數據塊 , 數據倉庫 , 文件大小 , 位圖

收藏 評論

u_14767244 - Apache Doris 中的 Data Trait:性能提速 2 倍的秘密武器

在數據庫系統的核心層,查詢優化器如同一位精明的策略家,不斷分析數據特徵並制定最優執行計劃。Apache Doris 作為一款高性能的 MPP 分析型數據庫,其優化器內置的 Data Trait 分析機制,通過挖掘數據內在的統計特徵和語義約束,為查詢優化提供了基礎設施。讓我們一起來探索這個強大的功能! 什麼是 Data Trait? 想象一下,如果你能提前知道數據的 “性格特徵”,

大數據 , 數據 , 數據倉庫 , 函數依賴 , SQL

收藏 評論

Java烘焙師 - 架構師必備:後端程序員需要了解的數倉知識

大家好,我是Java烘焙師。後端程序員平時除了接觸業務代碼、中間件、存儲等,也難免會跟數倉有交集。下面結合筆者的經驗和思考,從後端程序員的視角看數倉、做個總結,後續再跟數倉/BI argue的時候就不虛了😃 分成兩部分介紹:離線數倉、實時數倉。 離線數倉 離線數倉是最典型的數倉應用場景。後端服務產生了業務數據、監控埋點、日誌等,如果要做統計分析,就要先離線採集到數倉,再通過SQL做聚合查詢。

數據倉庫 , 架構

收藏 評論