tag 大數據

標籤
貢獻385
306
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

智能創新者 - 省市區json索引數據

{ "city":[ { "title":"A", "lists":[ "阿壩","阿拉善","阿里","安康","安慶","鞍山","安順","安陽","澳門" ] }, { "title":"B",

省市區json索引數據 , 大數據 , 數據倉庫 , ci

收藏 評論

向量檢索 - 如何通過HTTP API刪除Collection

本文介紹如何通過HTTP API刪除一個已創建的Collection。 重要 刪除Collection後,該Collection所有數據將刪除且不可恢復,請謹慎操作 前提條件 已創建Cluster:創建Cluster。 已獲得API-KEY:API-KEY管理。 Method與URL HTTP

向量檢索 , 大數據 , yyds乾貨盤點 , 數據倉庫 , 數據庫 , 人工智能 , 大模型

收藏 評論

落花有意飛花 - jupyter 運行spark程序

今天在intellij調試spark的時候感覺每次有新的一段代碼,都要重新跑一遍,如果用spark-shell,感覺也不是特別方便,如果能像python那樣,使用jupyter notebook進行編程就很方便了,同時也適合代碼展示,網上查了一下,試了一下,碰到了很多坑,有些是舊的版本,還有些是版本不同導致錯誤,這裏就記錄下來安裝的過程。 1.

spark , notebook , 大數據 , Scala , jupyter 運行spark程序 , jupyter

收藏 評論

PowerData - 【活動邀請函】6月15 | PowerData 數字經濟-"南京"開源行!

活動介紹 PowerData 數字經濟·城市開源行將於6月15日在南京盛大舉行。這是一個自由交流和思想碰撞的平台,我們將邀請行業領軍人物和熱門企業分享最新技術和實踐經驗,同時提供自由討論和互動環節,讓您與行業同仁暢所欲言。無論您是技術專家、創業者還是學術研究者,都能在這裏找到知識碰撞和靈感火花。PowerData誠邀各位數據匠人共同探索數據之路,共建數據人生! ! 活動信息 活動時間: 2024

社區 , 大數據 , 開源 , 分享 , 活動

收藏 評論

字節跳動開源 - 首屆 Apache Gluten 社區年度盛會 —— GlutenCon 2025 正式啓動!

在這個數據爆炸的時代,如何讓 Spark 等計算引擎跑得更快?如何通過原生向量化執行突破性能瓶頸? 2025 年 12 月 6 日(週六),首屆Apache Gluten 社區年度盛會 —— GlutenCon 2025 將於北京舉辦。來自字節跳動、IBM、微軟、騰訊、華為、小紅書、小米、BIGO 等企業的技術專家將帶來硬核技術分享,帶你深入瞭解 Bolt 加速庫、GPU 優化、內存管理等核心議題

spark , 大數據 , 活動

收藏 評論

laokugonggao - ArchiveManager需要單獨安裝

一般情況下自己為了學習 dyamics 365, 需要安裝一個虛擬機,在虛擬機上安裝一個環境。這個環境一般有成本限制會將所有的組件都安裝到一台機器上,叫做 FullServer 既有 ad (activity dictionary)服務,也有 AD Domain Services,SQL SERVER 數據庫,Dynamics 365也是前端和異步服務數據庫全部安裝在一台服務器上

Dynamics , 服務器 , 大數據 , hive , microsoft

收藏 評論

kamier - 【Hadoop】HBase系統解析及適用場景

一、HBase產生背景 在大數據時代,傳統的關係型數據庫(如Mysql、Oracle)在大數據量下的併發讀寫及可拓展性方面遇到瓶頸,尤其是處理海量的非結構化、半結構化數據時效率較低,而Hadoop的HDFS雖然支持海量數據的存儲以及批處理,但其無法支持隨機讀寫和低延遲查詢(HDFS 中的文件一旦寫入不能修改,只能追加),所以HBase被設計出來,彌補了HDFS在實時訪問能力上的不足。 HBase是

hdfs , 大數據 , hadoop , hbase

收藏 評論

美團技術團隊 - 基於SSD的Kafka應用層緩存架構設計與實現

Kafka在美團數據平台的現狀 Kafka出色的I/O優化以及多處異步化設計,相比其他消息隊列系統具有更高的吞吐,同時能夠保證不錯的延遲,十分適合應用在整個大數據生態中。 目前在美團數據平台中,Kafka承擔着數據緩衝和分發的角色。如下圖所示,業務日誌、接入層Nginx日誌或線上DB數據通過數據採集層發送到Kafka,後續數據被用户的實時作業消費、計算,或經過數倉的ODS層用作數倉生產,還有一部分

ssd , 大數據 , 後台 , 架構

收藏 評論

KPaaS集成擴展平台 - 金蝶雲星空與萬里牛如何自動同步採購訂單?——解構企業異構系統間的數據流轉瓶頸

企業中,後端通常部署金蝶雲·星空等ERP系統管理財務、供應鏈與製造,前端則採用萬里牛等SaaS平台支撐電商、零售或跨境業務。這種“前後端分離”的架構雖滿足了不同業務域的專業化需求,卻也帶來了典型的集成挑戰:系統間數據割裂、流程斷點頻發、人工干預成本高。 一個高頻場景是:當供應商物料到貨,倉庫人員在金蝶雲·星空創建“收料通知單”並完成質檢確認後,為同步庫存或觸發後續採購補貨動

大數據 , yyds乾貨盤點 , 數據孤島解決方案 , 數據倉庫 , 異構系統集成 , 數據一致性 , 數據集成與應用集成 , 應用集成

收藏 評論

龍蜥社區 - 紅象雲騰大數據基礎平台與龍蜥社區操作系統再次完成聯合測試

簡介:紅象雲騰與龍蜥社區再次聯合嚴格測試,完成並通過相互兼容性測試認證,相互兼容,功能正常,運行穩定。 最近紅象雲騰大數據產品與生態夥伴的適配工作喜報頻傳,不久前,紅象雲騰企業大數據基礎軟件平台產品與龍蜥操作系統(Anolis OS)8 AArch64完成了兼容測試,近日,紅象雲騰與龍蜥社區工作人員再次聯合嚴格測試,紅象雲騰企業大數據基礎軟件平台(Redoop Enterprise)V9完成了與龍

基礎 , 大數據 , 操作系統 , 測試 , 開源

收藏 評論

網絡安全守衞 - mac os安裝db2

最近需要使用Django開發個Web App. Django官方推薦使用Postgresql作為數據庫,所以這裏記錄一下在Mac OSX上安裝的步驟和碰到的問題。 最簡單的方式是安裝Postgres.App. 這個應用裏自帶了最新版本的PostgreSQL而且不需要學習數據庫服務器啓動和關閉的命令。程序安好後(別忘了拖拽到Application的文件夾裏),會自動

mac os安裝db2 , 大數據 , app , 數據倉庫 , bash , postgresql

收藏 評論

wx59290cd7bb11a - 大數據老兵的AI架構師技能樹:別卷算法,你的工程紅利期來了

前言 AI 浪潮已來,大模型正在重塑每一個行業的技術架構。作為擁有大數據背景的工程師,你是否也曾思考——如何將手中的 Java、Spark、Flink 經驗,轉化為 AI 時代的核心競爭力? 其實,你不需要重頭學數學、啃論文。你的工程經驗、架構思維,正是當前企業最稀缺的“模型落地能力”。 這篇文章,就是為你量身定製的轉型路線圖——跳過理論

大數據 , 數據倉庫 , JAVA , AI應用架構師 , 架構師

收藏 評論

songofhawk - mysql 大數據表的分頁性能優化

最近的工作中實現了一個定時統計功能:需要按指定順序,從源表中取出數據,經過分組合並,插入目標表。 源表數據量相當大,有幾千萬行,顯然不適合一次性取出(如果是一次性的腳本,在大內存的機器上也是可以考慮的,但定時任務每次啓動都佔用數十GB內存就太誇張了),需要分頁查詢。 但最初的實現中,採用了一個封裝好的分頁庫,單純的全表查詢,純粹依賴limit子句限制結果集窗口,構成的SQL語句類似這樣: sele

大數據 , sqlalchemy , MySQL , 查詢優化 , Python

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在遙感圖像目標檢測與語義分割中的應用與改進

(centerJava 大視界 -- Java 大數據機器學習模型在遙感圖像目標檢測與語義分割中的應用與改進/center) 引言:從開源生態到遙感智能化的 Java 實踐 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在《大數據新視界》和《 Java 大視界》系列中,我們已通過智能體育、智能政務、工業互聯網等場景揭示 Java 的工程化

機器學習 , spark , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , JAVA , Image

收藏 評論

u_15015752 - 什麼是分佈式數據庫?一文了解分佈式數據庫

隨着數字化轉型的深入,企業所面對的數據規模、訪問併發和業務複雜度持續攀升,傳統集中式數據庫在擴展性、可用性和性能方面逐漸顯現瓶頸。分佈式數據庫正是在這樣的背景下產生的一種新型數據庫架構,它通過將數據和計算能力分佈到多台服務器上,實現對海量數據的高效管理和穩定服務,成為現代數據基礎設施的重要組成部分。 什麼是分佈式數據庫? 分佈式數據庫是指數據在邏輯上屬於同一個數據庫系

分佈式數據庫 , 大數據 , 數據 , 數據倉庫 , 數據庫

收藏 評論

事辯天下 - 銘依眼科與“ICL女王”共同護航2025徐匯濱江長跑節

2025年12月28日上午,近8000名跑者齊聚徐匯濱江,銘依眼科現場提供眼部健康檢測與科普服務,將專業眼科醫療延伸至體育賽事場景。 上海城市業餘聯賽"中智杯"第二十屆世界著名在華企業健身大賽"2025徐匯濱江長跑節"於西岸穹頂藝術中心北廣場正式鳴槍起跑。近8000名中外跑者齊聚徐匯濱江,用腳步丈量"西岸最美藝術賽道”。

大數據 , 健康 , 數據倉庫 , 醫療 , 眼科

收藏 評論

SelectDB技術團隊 - 為什麼 Apache Doris 是比 Elasticsearch 更好的實時分析替代方案?

Elasticsearch 是一款開源的分佈式檢索引擎,廣泛應用於日誌分析、全文搜索和數據監控等領域。憑藉其強大的實時搜索能力和靈活的查詢語言,在市場上獲得了廣泛認可。然而,在過去兩年,我們注意到一個趨勢,很多 Elasticsearch 用户傾向於採用 Apache Doris 替代 Elasticsearch。 儘管 Apache Doris 和 Elasticsearch 在表面上看似不同,

elasticsearch , 大數據 , 性能分析 , 全文檢索 , 數據庫

收藏 評論

雲端創新夢想家 - spark網絡分割模型

摘要: 引言:你可能對使用Spark服務比較感興趣。Spark已經提供了很多功能,也有一個好用的界面,而且背後有強大的社區,開發者十分活躍,這也是人們對Spark寄予厚望的原因。深度學習是當前正在進行中的Spark項目之一。 引言:你可能對使用Spark服務比較感興趣。Spark已經提供了很多功能,也有一個好用的界面,而且背後有強大

spark , 框架 , 大數據 , 算法 , Scala , 腳本 , spark網絡分割模型

收藏 評論

mob64ca1405d568 - java - 【趙渝強老師】阿里雲大數據ACP認證之阿里大數據產品體系 - 趙強老師技術分享圈

大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。 一、大數據的數據存儲組件 在大數據體系中使用了分佈式存儲的方式解決了海量數據的存儲問題。它分為離線數據存儲和實時數據

大數據 , hive , hadoop , SQL

收藏 評論

北京辰輝創聚生物 - 重組生長因子全面解析:從結構功能到科研應用指南

重組生長因子是現代生命科學研究中不可或缺的重要工具,它們通過基因工程技術在體外表達和純化獲得,為細胞生物學、發育生物學及信號轉導研究提供了高純度、高活性的關鍵試劑。作為科研試劑,重組生長因子以其精確的序列一致性、可擴展的生產規模和卓越的批間一致性,顯著推動了基礎研究的標準化進程。本文將從技術層面系統介紹重組生長因子的基本特性、作用機制及典型

蛋白表達 , 分化和增殖 , 細胞培養 , 大數據 , 信號轉導 , 數據倉庫 , 生長因子

收藏 評論

码海舵手之心 - sparktype bigint對應哪個type

為了讓大家理解structured stream的運行流程,我將根據一個代碼例子,講述structured stream的基本運行流程和原理。 下面是一段簡單的代碼: 1 val spark = SparkSession 2 .builder 3 .appName("StructuredNetworkWordCount") 4

spark , 批處理 , System , 大數據

收藏 評論

KPaaS集成擴展平台 - 數據治理:解決主數據冗餘和重複的三大方法

許多企業在享受數據紅利的同時,也飽受“數據沼澤”之苦——尤其是主數據(Master Data)的冗餘、不一致與重複問題,已成為制約業務效率與決策質量的關鍵瓶頸。 主數據,如客户、供應商、商品、組織架構等,是貫穿企業多個業務系統的核心實體。一旦這些基礎數據在不同系統中存在多個版本、命名不一或結構混亂,不僅會導致財務對賬困難、庫存管理失真,還可能引發客户體驗下降甚至合規風險。根

主數據管理 , 大數據 , yyds乾貨盤點 , 數據孤島解決方案 , MDM , 數據倉庫 , 數據一致性 , 數據集成與應用集成

收藏 評論

北京辰輝創聚生物 - 口蹄疫病毒(FMDV)分子結構與重組蛋白技術原理

口蹄疫病毒(Foot-and-Mouth Disease Virus,FMDV)是一類典型的正鏈單股RNA病毒,其基因組結構緊湊、蛋白加工高度依賴病毒自身蛋白酶系統。圍繞FMDV基因組編碼的結構蛋白與非結構蛋白,科研領域已廣泛開展重組蛋白層面的分子研究。 一、口蹄

FMD蛋白 , 大數據 , 科研級重組蛋白試劑 , 蛋白功能 , 數據倉庫 , FMDV非結構蛋白 , VP1蛋白

收藏 評論

阿森CTO - map與set應用

@TOC 在C++ STL的容器家族中,map和set作為核心關聯式容器,憑藉紅黑樹的底層實現,兼具自動排序、高效檢索的特性。 一、關聯式容器與鍵值對:基礎概念鋪墊 1.1 關聯式容器 vs 序列式容器 STL容器分為序列式容器(如vector、list、deque)和關聯式容器(如map、set、multimap、multiset),核心差異在於

紅黑樹 , 鍵值對 , 大數據 , yyds乾貨盤點 , 迭代器 , 數據倉庫

收藏 評論