收藏 / 列表

天翼雲開發者社區 - 數據治理之數據質量評估維度及方法

本文分享自天翼雲開發者社區《數據治理之數據質量評估維度及方法》,作者:i****n 從某種程度上來説“數據=金錢”,數據質量的好壞直接決定着數據價值高低,直接或簡介影響一個企業的決策方向。數據質量管理是指在數據創建、加工、使用和遷移等過程中,通過開展數據質量定義、過程控制、監測、問題分析和整改、評估與考核等一系列管理活動,提高數據質量以滿足業務要求。 一、數據質量關注點 一致性:值數內容在系統內,

大數據

ApacheFlink - 實時計算 Flink 全新升級 - 全棧流處理平台助力實時智能

本文根據2025雲棲大會演講整理而成,演講信息如下 演講人:黃鵬程阿里雲智能集團計算平台事業部實時計算Flink版產品負責人 引言 在數據驅動的時代,實時數據處理已成為企業數字化轉型的核心能力。阿里雲實時計算Flink版用了十年時間來進行產品發展,從技術引進到自主創新,已成為實時數據處理的行業標杆。在這次雲棲大會上,阿里雲發佈了實時計算Flink的全新升級,不僅在計算和存儲層面實現重大突

大數據 , flink , 實時計算

泊浮目 - 面向價值編程:Why, What, How

版本 日期 備註 1.0 2022.9.19 文章首發 本文首發於泊浮目的掘金:https://juejin.cn/user/146860... 0. 前言 從2021年,各個大廠的反內卷,再到2022年的裁員,大多數人都意識到互聯網行業進入了寒冬。其實並非這個行業如此,其他的行業也正在嚴寒中苟活。宏觀原因其實顯然易見

程序員發展 , 職業規劃 , 程序員

ApacheSeaTunnel - 深陷 Sqoop+Canal 困境?中控技術用 SeaTunnel 打造高效數據採集破局方案

核心數據一致性達99.99%、開發效率提升50%、運維成本降低70%——這是中控技術採用 Apache SeaTunnel 構建數據採集框架及相關數據服務體系後的實測成效。 上週 Apache SeaTunnel 線上 Meetup 上,中控技術工程師崔俊樂分享了這家大型工業 AI 平台型公司的實踐經驗。我們已將視頻內容整理成文,供行業同仁參考借鑑。 作者簡介 崔俊樂,中控技

spark , 大數據 , 運維 , 開源 , seatunnel , apache

不語 - springSesurity+JWT權限框架基礎使用模板

前言 Demo源碼地址:https://gitee.com/ruozxby/springsecuritydemo springSesurity本質是一串過濾器執行鏈 我們自定義主要分為三個部分 1.配置文件 2登錄認證 3權限認證 大概流程 調用自定義登錄— 成功返回token(同時用户數據存入redis) —後續調用則進入自定義的jwt校驗過濾器,成功則把用户數據、權限數據存入SecurityC

權限控制 , springboot , 後端 , Jwt

kamier - 【Hadoop】Yarn資源管理調度

一、Yarn產生背景 Yarn(全稱為Yet Another Resource Negotiator,譯為"另一個資源協調者")在Hadoop2.0版本中引入,其誕生是為了解決 Hadoop 1.x 架構中 MapReduce 的資源管理和計算框架耦合 的問題。簡而言之,就是之前MapReduce的資源管理和計算框架是耦合在一起的,為了解耦而設計出了Yarn。 Yarn是一種新的 Hadoop 資

大數據 , yarn , hadoop

墨韻流香 - 2019 亞馬遜關鍵詞優化規則A9算法的九個關鍵要素

當搜索規則的重構遇上流量分配的洗牌,亞馬遜賣家正面臨新一輪的生存考驗 2025年10月,亞馬遜搜索機制迎來重大調整,兩大核心變化正在重塑平台的流量分配邏輯,關鍵詞權重體系的重新洗牌與"多變體自然位"現象的出現,標誌着亞馬遜搜索算法進入新的發展階段,對於數百萬賣家而言,這既是一場嚴峻的挑戰,也是重新思考運營策略的契機。 關鍵詞權重重構:標題的王

產品運營 , 大數據 , 跨境電商 , 後端開發 , 電商 , 人工智能 , Python

Aloudata - 企業級 VS 個人級:智能問數的“集團軍”與“單兵作戰”的差異解析

智能問數正迅速成為企業數據消費的新入口。從初創公司到世界 500 強,眾多組織嘗試通過“一句話問數”的方式,降低數據分析門檻、提升決策效率。理想很豐滿,但現實很骨感,“問不準”、“不靈全”、“問不深”成為大量嚐鮮用户的普遍感受。 表面上看,這類失敗常被歸因於技術瓶頸——例如模型準確性不足、SQL 生成錯誤、響應延遲等。但深入剖析後不難發現,問題的根

大數據 , 數據倉庫 , 智能歸因 , 智能報告 , 數據分析 , 智能問數 , chatbi

饕餮大數據 - 【Ambari開啓Kerberos】-Kafka啓動失敗處理

温馨提示 本文內容在使用 ttr-2.2.0版本之前,開啓Kerberos後才會遇到。 後續版本已經做了處理,無需關注! 如果在部署、二開過程中,遇到任何問題可以讓作者幫你解決。 一、問題現象 在 Ambari 啓用 Kerberos 後啓動 Kafka 服務時,出現如下錯誤,Kafka 無法正常啓動。 [2025-10-29

hdp , 大數據 , cdh , 私藏項目實操分享 , 運維 , hadoop , 開源

數據集成與治理 - 元數據管理是什麼?怎麼管?

做數據最怕什麼? 需要分析業務時找不到數據在哪;各部門對"活躍用户"等指標定義不一,數據對不上;報表出錯時,還得花大量時間排查問題根源…… 這些情況其實就是缺乏對元數據的有效管理。 找數據難、數據口徑不一致、問題追溯效率低等問題,其實把元數據管理做好了,就能解決這些問題。 下面我就來給大家好好講講元數據管理的概念、作用、管理步驟和重要性,幫你找到切實可行的解決方案。 一、什麼是元數據管理? 咱們先

數據 , 教程 , 知識 , 數據庫

阿森CTO - 初始化列表與explicit

@TOC 📝再談構造函數 🌠 構造函數體賦值 在創建對象時,編譯器通過調用構造函數,給對象中各個變量一個合適的初始值 class Date { public: Date(int year, int month, int day) { _year = year; _month = month; _day = day;

初始化列表 , 大數據 , yyds乾貨盤點 , 初始化 , 數據倉庫 , 構造函數

軟件部長 - JVS-rules規則引擎中基礎和複合變量的詳細介紹

JVS-rules中的“變量”概念與編程語言中的變量類似,但它們通常在規則系統中處理條件判斷、業務結果複製場景,如下所示: 條件判斷:在規則引擎中,規則通常由兩個部分組成:條件和分支。變量用於描述條件部分中的數據和狀態。例如,一個規則可能是:“如果温度超過30度,則執行打開空調的分支”。這裏的“温度”就是一個變量,它描述了一個條件。 動作執行:當規則引擎確定某個規則的條件滿足時,與該規則節點

規則引擎 , JAVA , 變量

KPaaS集成擴展平台 - 主數據實時同步:為什麼 CIO 要優先考慮?

越來越多 CIO 開始意識到:技術架構可以迭代,應用系統可以替換,但數據的一致性與可信度,才是決定數字化成敗的底層基石。而在所有數據類型中,主數據(Master Data)——如客户、供應商、物料、組織架構等核心業務實體——因其跨系統、高複用、強關聯的特性,成為數據治理的“牛鼻子”。 然而,現實卻令人憂心:銷售在 CRM 中錄入的客户信息,與財務在 ERP 中使用的客户編碼

主數據管理 , 大數據 , yyds乾貨盤點 , 數據孤島解決方案 , MDM , 數據倉庫 , 異構數據整合 , 數據一致性

StarRocks - 技術內幕|StarRocks 標量函數與聚合函數

作者:徐嘉 StarRocks Active ContributorStarRocks 函數就像預設於數據庫中的公式,允許用户調用現有的函數以完成特定功能。函數可以很方便地實現業務邏輯的重用,因此正確使用函數會讓讀者在編寫 SQL 語句時起到事半功倍的效果。 StarRocks 提供了多種內置函數,包括標量函數、聚合函數、窗口函數、Table 函數和 Lambda 函數等,可幫助用户更加便捷

源碼學習 , 源碼 , 數據庫

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource Quota 策略優化實現資源管理性能與成本最優平衡。 注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。 1. 背景 GoTerra 作為東南亞互

MaxCompute , 大數據 , 數據倉庫 , 阿里雲 , 數倉遷移

SelectDB技術團隊 - Apache Doris Summit 2025 圓滿收官,一文速覽峯會高光時刻!

2025 年 11 月 5 日至 6 日,由飛輪科技主辦的 Apache Doris Summit 2025 技術峯會圓滿落下帷幕。本次峯會以 “Powering Real-Time Analytics Search in the AI Era” 為主題,通過線上直播的形式,成功吸引了全球的 10 萬+開發者、架構師和數據技術專家的參與。大家齊聚雲端,共探 AI 時代背景下,數據價值釋放的全新路

資訊 , 數據庫 , 人工智能 , apache

代碼匠心 - 系統架構設計師-第3章-數據庫

第3章-數據庫 在信息處理領域,由於數據量龐大,如何有效組織、存儲數據對實現高效率的信息處理至關重要。數據庫技術是目前最有效的數據管理技術。數據庫(DataBase,DB)是指長期存儲在計算機內、有組織的、統一管理的相關數據的集合。它不僅描述事物的數據本身,而且還包括相關事物之間的聯繫。數據庫可以直觀地理解為存放數據的倉庫,只不過這個倉庫是在計算機的存儲設備上,而且數據是按一定格式存放的,具有較小

架構設計 , JAVA , 架構師

事辯天下 - 2025中國上海國際童書展圓滿落幕 全球兒童內容產業在滬呈現蓬勃活力

2025中國上海國際童書展(CCBF,以下簡稱上海童書展)於11月16日在上海世博展覽館圓滿落幕。本屆展會吸引了來自35個國家和地區的474家參展商亮相,集中展示超過2萬種中外最新童書。根據主辦方統計,截止稿件發佈,本屆展會促成近1000項版權交易意向,實現圖書銷售碼洋約1500萬元,文創和衍生品銷售額接近200萬元。 展會三天共迎來42,387名觀眾,其中包括15

商業 , 大數據 , ip , 數據倉庫 , 類圖

雲掣科技 - 開源大數據集羣部署(二十一)Spark on yarn 部署

作者:櫰木 1 spark on yarn安裝(每個節點) cd /root/bigdata/ tar -xzvf spark-3.3.1-bin-hadoop3.tgz -C /opt/ ln -s /opt/spark-3.3.1-bin-hadoop3 /opt/spark chown -R spark:spark /opt/spark-3.3.1-bin-hadoop3 2 配置環境變量及

大數據 , 集羣