tag 大數據

標籤
貢獻394
336
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

阿里雲大數據AI技術 - 【跨國數倉遷移最佳實踐 12】阿里雲 MaxCompute 實現 BigQuery 10 萬條 SQL 智能轉寫遷移

作者:曹霖 本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第十二篇,基於阿里雲MaxCompute實現BigQuery10萬條SQL智能轉寫遷移。 注:客户為東南亞頭部科技集團,文中用GoTerra表示。 一、項目背景 在全球化和數字化加速

MaxCompute , 大數據 , 數據倉庫 , 數據遷移 , 阿里雲 , SQL

收藏 評論

mob64ca14031c97 - cdp對應的spark客户端 spark core

目錄 一、Spark Core 1、什麼是Spark?特點 二、安裝和部署Spark、Spark 的 HA 1、spark體系結構 2、spark的搭建 3、Spark的 HA 三、執行Spark的任務

spark , 大數據 , hadoop , Scala , cdp對應的spark客户端

收藏 評論

mob64ca13fc220d - hive group by cube函數

Cube授權/明細等操作 Cube明細查看 Cube是從星型模式的Hive表中獲取的預計算數據集,供用户探索、管理所有cube的網頁管理頁面。由菜單欄Model進入cube頁面,系統中所有可用的cube將被列出。 點擊已經創建好的cube, 展開cube明細。 SQL 視圖 (Hive查詢讀取數據

訪問權限 , 大數據 , 用户權限 , hive , 數據存儲

收藏 評論

mob64ca140c75c7 - 離散度低的列為什麼不適於建索引

數據庫索引詳解 索引是對數據庫表中一列或多列的值進行排序的一種結構,使用索引可快速訪問數據庫表中的特定信息。 如何選擇合適的列建立索引 從where從句中,group by從句中,order by從句中,on從句中,select列中,還可以建立覆蓋索引(也就是指索引包含所有查詢的列,直接查索引就可以完成任務的

字段 , 大數據 , 索引 , 數據庫表 , 數據倉庫 , 離散度低的列為什麼不適於建索引 , 數據庫

收藏 評論

阿里雲大數據AI - 阿里雲 AI 搜索開放平台:從算法到業務——AI 搜索驅動企業智能化升級

——已獲知乎作者【GitHub Daily】授權轉載 目前大模型的強大能力,使其成為一些企業和行業的主要創新驅動力,企業亟需重新審視和調整現有的創新機制,以適應AI技術和大數據的快速發展。目前很多企業已經開始嘗試大模型在業務中進行賦能,但在使用一些大模型時往往因為自身場景的需求不同,導致在應用落地中存在一些場景受限,知識庫不完善等一些痛點。 阿里雲AI搜索,憑藉先進的大模型能力和強大的 RAG 處

大數據 , 搜索 , 算法 , 阿里雲 , 人工智能

收藏 評論

智能探索者之家 - 搜索引擎人物檢索模糊搜索

本週記者工具:PeekYou PeekYou是什麼? 一個在線目錄,拖網60多個社交網站和超過30億個鏈接,根據對此PeekYou的LinkedIn的資料,它��述了它的使命是“索引公共web周圍的人”。 PeekYou界面 (繼續,搜索你的名字,你知道你想。) 記者怎樣使用PeekYou?

社交網絡 , 大數據 , 社交網站 , 搜索引擎人物檢索模糊搜索 , 搜索 , 實名尋人搜索引擎app , 數據倉庫

收藏 評論

lazihuman - hive取上季度最後一天

今日內容: 1) 分桶表的相關優化 -- 理解 2) 建模分層操作 -- 需要操作 3) 全量流程的統計分析: -- 需求操作 (嘗試自己實現) 數據的

字段 , 大數據 , 數據 , hive , hive取上季度最後一天

收藏 評論

藍夢之翼 - netcore調用sqlserver數據庫索引整理

asp.net core通過ef core來訪問數據庫,這裏用的是代碼優先,通過遷移來同步數據庫與模型。 環境:vs2017,win10,asp.net core 2.1 一、從建立asp.net core web項目開始 1、通過vs2017建立一個asp.net core web

大數據 , 數據 , 數據倉庫 , 數據庫 , 主鍵

收藏 評論

我就是不長肉而已 - BAT54S-ASEMI可直接替代安世BAT54S-QR

編輯:ll BAT54S-ASEMI可直接替代安世BAT54S-QR 型號:BAT54S 品牌:ASEMI 封裝:SOT-23 正向電流:0.2A 反向電壓:30V 正向壓降:0.55V~0.95V 引線數量:2 芯片個數:1 芯片尺寸:MIL 漏電流:10ua 恢復時間:35ns 浪涌電流:80A

BAT54S , ASEMI , 大數據 , hadoop , 在51CTO的第一篇博文 , 肖特基二極管

收藏 評論

雲端創新者 - SPARKLIKE官網

本博文的主要內容:   1、HashShuffle徹底解密   2、ShufflePluggable解密   3、SortedShuffle解密   4、Shuffle性能優化 一:到底什麼是Shuffle?   Shuffle中文翻譯為“洗牌”,需要Shuffle的關鍵性原因是某種具有共同特徵的數據需要最終匯聚到一個計算節點上進行計算

sed , spark , 大數據 , 數據 , SPARKLIKE官網

收藏 評論

阿森CTO - linux信號捕捉,中斷

@TOC 📝前言 🌠 信號捕捉的流程 如果信號的處理動作是⽤⼾⾃定義函數,在信號遞達時就調⽤這個函數,這稱為捕捉信號。 由於信號處理函數的代碼是在⽤⼾空間的,處理過程⽐較複雜,舉例如下: ⽤⼾程序註冊了SIGQUIT 信號的處理函數sighandler 當前正在執⾏main 函數,這時發⽣中斷或異常切換到內核態

大數據 , yyds乾貨盤點 , 初始化 , 信號處理 , 數據倉庫 , 系統調用

收藏 評論

數據信息報 - 體育數據接口,足球數據api,籃球數據接口,電競數據pai,納米數據,動畫直播

隨着社會工業化、信息化水平的不斷提高,如今數據已取代計算成為信息計算的中心,雲計算、大數據正在成為一種趨勢和潮流,包括存儲容量、可用性、數據安全性、可擴展性等諸多方面。大數據是規模非常巨大和複雜的數據集。 越來越多的人在開發新應用時,都會用到API數據,但是API數據很多,好的API數據接口卻不多,包括傳統調研數據和機器數據,搜索、電商、社交等。而對於外部數據的獲取

機器學習 , 大數據 , 數據 , API , 人工智能

收藏 評論

向量檢索 - 通義深度搜索

簡介 通義深度研究產品,又稱深度搜索智能體Deep Search Agent,基於廣受歡迎的通義開源 WebSailor/DeepResearch開源項目增強而來,為用户打造的端到端智能深度搜索Agent API,可廣泛應用於本地+聯網知識庫、長文報告寫作、金融分析、法律諮詢、市場研究等應用場景 通義深度搜索Agent,通過多階段

大數據 , yyds乾貨盤點 , 搜索 , 深度搜索 , 數據倉庫 , AI , AI問答 , 大模型

收藏 評論

jiecho - 有哪些垃圾蜘蛛搜索引擎

模擬蜘蛛查詢工具可以用來測試各種鏈接或文本的信息,以及蜘蛛看到的源碼等,在實際中有着非常多而且重要的作用,一般來講,我們最常用的模擬蜘蛛蜘蛛查詢的工具和作用如下: 1

有哪些垃圾蜘蛛搜索引擎 , 大數據 , google , 數據倉庫 , 友情鏈接 , HTML

收藏 評論

數據小築 - saas雲平台開發 博客園

saas應用與傳統應用開發 每個SaaS應用程序的背後都是存儲有關員工,供應商,客户和其他合作伙伴的業務信息的數據庫。 SaaS應用程序支持工作流,例如用於銷售和市場營銷的CRM,用於財務的雲ERP,用於人力資源功能的勞動力管理以及其他企業和部門服務。 如今,許多企業使用廣泛的SaaS應用程序-從諸如Salesforce,Slack,Workday

雲平台 , 大數據 , 雲計算 , 數據庫 , JAVA , Python

收藏 評論

雲端築夢工匠 - 軟件裏的數據archive

隨着網絡的普及,我們的各種數據基本上都存儲到了電腦、手機、以及各種軟件當中,數據的重要性已經不言而喻,如果重要的數據有丟失或者誤刪,可能會給我們帶來很大的損失。因此,擁有一個好的數據恢復工具很重要,在數據有丟失、誤刪等情況下快速恢復數據,推薦大家用數據恢復軟件EasyRecovery,可以輕鬆恢復各類文檔、音頻、視頻等文件,恢復率高,操作簡單,讓本以為找不到的文件,重現眼前。

大數據 , 數據 , hive , 誤刪 , 數據恢復 , 軟件裏的數據archive

收藏 評論

daleiwang - Atcoder AGC001 解題報告

A 簡單題,每次找兩個最短的配對,取兩者 \(\min\)。實現上,對 \(a\) 從小到大排序,\(1 \to n\) 遍歷 \(i\),每次將 \(a_i\) 累計入答案並對 \(i\) 迭代 \(+ 2\)。 #include bits/stdc++.h using i64 = long long; int main() { st

大數據 , hadoop , i++ , ci , ios

收藏 評論

mob64ca140f67e3 - hadoop yarn怎麼定位到數據傾斜的key

數據傾斜是指,map /reduce程序執行時,reduce節點大部分執行完畢,但是有一個或者幾個reduce節點運行很慢,導致整個程序的處理時間很長,這是因為某一個key的條數比其他key多很多(有時是百倍或者千倍之多),這條key所在的reduce節點所處理的數據量比其他節點就大很多,從而導致某幾個節點遲遲運行不完。

數據傾斜 , 大數據 , 數據 , hive , hadoop

收藏 評論

lingyuli - 大數據系統包含哪些組件?需要過等保嗎?_大數據_行雲管家

hdfs impala kudu spark flink hudi 技術在大數據生態中分工明確,應用場景各有側重,以下是它們的核心應用場景及典型搭配: 1. Hadoop HDFS:底層海量數據存儲 核心場景:作為分佈式存儲基石,適用於所有需要存儲海量數據(TB/PB級) 的場景,尤其擅長存儲結構化、半結構化、非結構化數

hdfs , 大數據 , 數據 , 後端開發 , SQL , Python

收藏 評論

u_15015752 - 國產大數據平台替換CDH,能源巨頭實現大數據平台全面升級

在數字化浪潮的推動下,大數據平台已成為眾多企業的核心基礎設施。然而,許多早期採用CDH等傳統開源大數據平台的企業,在享受技術紅利的同時,也逐漸遭遇了不少問題:技術棧老舊帶來的維護成本激增、架構僵化導致的業務響應遲緩、以及開源組件拼湊模式下難以彌合的安全與治理鴻溝。 某大型能源集團在面臨上述挑戰時,通過將原有CDH平台替換為星環科技大數據基礎平台TDH,不僅化解了潛在風險,還

大數據 , 數據 , 自主可控 , 案例 , 數據倉庫

收藏 評論

碼海舵手 - hive ipv6地址轉換十進制

IPv6和IPv4的表示方式    在使用ip地址的時候,經常會聽到IPv6和IPv4   那麼他們的區別在哪裏?   一開始的時候,是隻有IPv4地址,IPv4地址只有32位,可以使用,使用的是二進制計數,但是在記錄的時候採用十進制點分法分為四段,比如127.0.0.1,他表示的就是00001111.00000000.00000000.00000001

hive ipv6地址轉換十進制 , 大數據 , ip , hive , 二進制數字 , 十六進制

收藏 評論

數據科學家 - or的字段需要創建組合索引

ORM字段   1、AutoField     int自增列,必須填入參數 primary_key=True。當model中如果沒有自增列,則自動會創建一個列名為id的列。   2、IntegerField     一個整數類型,範圍在 -2147483648 to 2147483647。   3、CharField     字符類型,必須提供

字段 , or的字段需要創建組合索引 , 大數據 , 字符串 , 數據倉庫 , 數據庫

收藏 評論

青雲交技術圈 - Java 大視界 -- 基於 Java 的大數據可視化在城市地下管網管理與風險預警中的應用

(centerJava 大視界 -- 基於 Java 的大數據可視化在城市地下管網管理與風險預警中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!凌晨三點的深圳福田區,一場突如其來的暴雨讓城市管網承受巨大壓力。Java 驅動的智慧管網系統正以毫秒級頻率分析着 1.2 萬路傳感器數據,當系統監測到某路段污水管道

spark , 大數據 , yyds乾貨盤點 , 數據 , JAVA , .net

收藏 評論

wx5d7321c78b265 - PHP 8.5 在性能、調試和運維方面的新特性

2025 年即將結束,這意味着 PHP 的新版本也已經發布了! 在本文中,我們將重點介紹那些你在上述文章中找不到的,關於 PHP 8.5 在性能、調試和運維方面的變化。 其中一些改動甚至是由 Tideways 的員工直接貢獻的。 你是不是最好奇 PHP 8.5 是否比舊版本性能更強?可以看看基準測試。 原文鏈接 PHP 8.5 在性能、調試和運維方面的新特性

大數據 , php , hive , INI

收藏 評論