tag 大數據

標籤
貢獻385
279
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

autohost - 單獨編譯使用WebRTC的音頻處理模塊 - android - 牽着老婆滿街逛

編寫源代碼: // 標準輸入輸出頭文件,提供printf等函數 #include stdio.h // 文件控制操作頭文件,提供open、fcntl等函數 #include fcntl.h // UNIX標準函數頭文件,提供read、write、close等函數 #include unistd.h // 文件狀態頭文件,提供stat、fs

大數據 , 採樣率 , hadoop , C語言 , c++ , Linux , 音頻處理

收藏 評論

合合技術團隊 - 解析穩定率達99.99%!合合信息“大模型加速器2.0”助力AI打破“幻覺”

隨着大模型在社會應用中逐漸普及,人們在享受便利的同時,也面臨着“AI 幻覺”產生的風險。訓練數據是影響大模型“認知能力”的關鍵要素,近期,上海合合信息科技股份有限公司(簡稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,基於領先的智能文檔處理技術,對複雜文檔的版式、佈局和元素進行精準解析及結構化處理,從數據源頭降低大模型“幻覺”風險,讓大模型在與人類的溝通中“更靠譜”。

表格 , 大數據 , 算法 , 人工智能 , 圖表

收藏 評論

程序猿追 - 【徵文計劃】使用Rokid CXR-M和CXR-S SDK構建智能維修助手

一、引言:AI眼鏡如何重塑工業維修 在傳統工業維修現場,工程師常常面臨一個尷尬困境:需要同時操作工具、查閲圖紙和記錄數據,但人類只有兩隻手。這種頻繁的場景切換不僅降低了效率,更增加了出錯風險。 Rokid AR眼鏡為解決這一痛點提供了完美方案。通過CXR-M SDK(移動端開發套件)和CXR-S SDK(眼鏡端開發套件),開發者可以構建能夠將數字信息疊加到真實世界的智

大數據 , 數據倉庫 , Android , ide

收藏 評論

mob64ca1413c518 - spark 決策樹剪枝 spss決策樹剪枝

決策樹——剪枝 本篇是決策樹系列的第二篇,介紹一下決策樹的剪枝過程。過擬合是決策樹構建過程中常見的問題,信息失衡、噪聲等問題都會導致過擬合,剪枝則是提高決策樹模型泛化能力的重要手段,下面對常用的剪枝方法作一些介紹。 1.預剪枝 決策樹系列第一篇《分類:決策樹——樹的生長》中提到過,樹的生長是一種“完全”式的生長,終止條件也僅有“所有的樣本屬於同一類,

spark , 結點 , 誤分類 , 決策樹 , spark 決策樹剪枝 , 大數據 , 子樹

收藏 評論

mob64ca13f83523 - spark 寫入結構化數據到hdfs

(resilient distributed dataset,RDD)是一個非常重要的分佈式數據架構,即彈性分佈式數據集。   它是邏輯集中的實體,在集羣中的多台機器上進行了數據分 區。通過對多台機器上不同RDD分區的控制,就能夠減少機器之間的數據重排(data shuffling)。Spark提供了“partitionBy”運算符,能夠通過集羣中多台機器之間對原始RDD進

spark , hdfs , 大數據 , spark 寫入結構化數據到hdfs , 數據 , hadoop

收藏 評論

代碼匠心 - 從零開始學Flink:事件驅動

在實時計算領域,很多業務邏輯天然適合“事件驅動”模式:當事件到達時觸發處理、在某個時間點觸發補償或彙總、根據狀態變化發出告警等。Apache Flink 為此提供了強大的 ProcessFunction 家族(KeyedProcessFunction、CoProcessFunction、BroadcastProcessFunction 等),它們在算子層面同時具備“事件處理 + 定時器 + 狀態”

大數據

收藏 評論

字節墨海星 - github 關係型數據庫元數據採集

關係模型在邏輯層和視圖層描述數據,使得用户不必關注存儲的底層細節,關係模型非常簡潔 2.1 關係模型的結構 由於一個表中的一行代表了一組值之間的一種聯繫,表就是這種聯繫的一個集合,表這個概念和數學上的關係這個概念聯繫密切。 n元組表示一個具有n個屬性的tuple,關係用來指代表,元組用來指代行,屬性是指行中的列 關係實例用來

大數據 , 取值 , 數據倉庫 , github 關係型數據庫元數據採集 , 元組 , 關係模型

收藏 評論

墨舞青雲 - 大數據--數據倉庫3--數據質量/元數據/數據治理

5.2 元數據 5.2.1 工具 數倉開源元數據項目對比(Apache Atlas、Apache Gravitino、DataHub、OpenMetadata、Amundsen、Metacat、Marquez) 5.2.1.1 起源與發展歷程

大數據 , 數據 , 數據治理 , 元數據 , jquery , 前端開發 , apache

收藏 評論

ApacheFlink - 阿里雲、Ververica、Confluent、Linkedin攜手推進流式創新,共築智能體AI未來

ApacheFlinkAgents:一項里程碑式合作,旨在構建可擴展、面向生產的事件驅動型流式智能體框架。 作者:宋辛童,ApacheFlinkPMCMember,阿里雲高級技術專家 在FlinkForwardBarcelona2025大會上,我們宣佈:阿里雲、Ververica、Confluent與LinkedIn四家數據流領域的領軍企業正式攜手,共同推進ApacheFlinkAgent

大數據 , flink , 實時計算

收藏 評論

mob64ca14038b36 - Hiveserver 2 啓動中的問題

在 Hive 生態系統中,從元數據庫初始化到 HiveServer2 啓動的每一步都可能暗藏 “陷阱”。本文將結合實際操作,詳細解決元數據庫強制連接 Derby和HiveServer2 啓動類缺失兩大核心問題,幫助你徹底打通 Hive 部署流程。 目錄 一、問題一:Hive 元數據庫初始化時強制連接 Derby 現象回

大數據 , MySQL , hive , hadoop , 後端開發 , 筆記 , Python

收藏 評論

u_14767244 - Apache Doris 實時更新全解:從設計原理到最佳實踐|Deep Dive

在數據驅動決策的今天,數據的“新鮮度”已成為企業在激烈市場競爭中脱穎而出的核心競爭力。傳統的 T+1 數據處理模式,由於其固有的延遲,已無法滿足現代商業對實時性的苛刻要求。無論是為了實現毫秒級的業務庫與數據倉庫同步、動態調整運營策略,還是為了在秒級內修正錯誤數據以保障決策的準確性,強大的實時數據更新能力都顯得至關重要。 Apache Doris作為一個現代化的實時分析型數據庫,其設計

字段 , 大數據 , 數據 , 數據倉庫 , 主鍵

收藏 評論

阿里雲開發者 - HashTable 在螞蟻轉化歸因中的極致運用

概述 螞蟻的轉化歸因在初期運行兩個多小時的情況下,進行了一系列優化,其中建立hash cluster表及強制hash關聯及Shuffle的手動干預進行remove操作此部分優化佔了較大比重。本文則主要講述hash cluster表的一些運用。 Hash cluster表具有兩個作用: · 存儲預排序的重排壓縮。Hash cluster表採用分桶排序操作,若相同的值重複度高,則可以達到更

大數據 , hash , 雲計算 , 阿里雲 , cluster

收藏 評論

jimoshalengzhou - 數據倉庫書籍PDF

凡事應該儘量簡單,直到不能再簡單為止。 維度建模簡介 一、用於度量的事實表 1.應該儘量將來源於同一個業務過程的底層度量結果存儲於一個維度模型中。 2.事實表中的每一行對應一個度量事件。每行中的數據是一個特定級別的細節數據,稱為粒度。   物理世界的每一個度量事件與對應的事實錶行具有一對一的關係,這一思想是維度建模的基本原則。 3.事實表包含多

大數據 , 數據 , 數據倉庫 , 數據倉庫書籍PDF , 三範式 , 主鍵

收藏 評論

遊俠小影 - 類與對象 - 荊荊是個好姑娘的個人空間 -

初始化是一樣的,只是暫且沒有區別 這樣就不行了 他認為初始化列表是每個成員變量定義的地方。日期類成員可以在函數體內也可以初始化列表內。但是有一類成員只能 比如説有一個const成員,如果這個const成員在函數體內初始化是不行的

初始化列表 , 大數據 , 初始化 , 算法 , hadoop , c++ , 函數體

收藏 評論

mob64ca1404ed65 - android adb 最新版本下載地址,adb工具包2017完整版-安卓adb工具1.0.32 最新完整版下載_東坡手機下載..._weixin

此前我們發佈了ROM樂園ADB工具箱R34版,使用的用户非常多,集成了很多驅動和常用的adb命令,幫助很多小白用户,輕鬆學會了adb調試刷機等操作。2025年,我們同步官方更新到最新的ADB工具箱R36版本,修復了此前的各種BUG;目前屬於相對來説最為穩定的版本,並且兼容最新版系統的刷機,特別是Pixel8以上設備,舊版的fatsboot指令常會失敗,新

windows , 大數據 , 舊版 , API , adb , hadoop

收藏 評論

cnolnic - 不懂Hadoop心臟Shuffle的原理這一篇就夠了(含講解視頻)

在 Hadoop MapReduce 的 Shuffle 階段,環形緩衝區(Circular Buffer) 被用於 Map 任務輸出中間數據的暫存,這是其性能優化的關鍵設計之一。下面從原理、目的和優勢三個方面詳細解釋 為什麼 Hadoop Shuffle 中使用環形緩衝區。 一、環形緩衝區在 Shuffle 中的位置 在 Map 任

大數據 , 數據 , hadoop , 環形緩衝

收藏 評論

ApacheFlink - 打造可編程可集成的實時計算平台:阿里雲實時計算 Flink被集成能力深度解析

關於作者 本文內容整理自阿里雲實時計算Flink產品團隊的技術分享,由李昊哲主講。李昊哲負責Flink平台的控制枱體驗、企業級能力建設,包括開放性、權限管理和可觀測性等方向。 在企業數字化轉型的浪潮中,實時計算已經成為核心技術能力之一。然而,一個強大的實時計算引擎如何才能真正融入企業複雜的技術生態?答案在於"被集成能力"——讓平台不僅僅是一個獨立的服務,而是能夠無縫嵌入到企業現有的開發流程、運維

大數據 , flink , 實時計算

收藏 評論

智能創新者 - odps sql和hive sql的區別

ORACLE是數據庫,有客户端和服務器;     其,具體下載,可見http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html   PLSQL Developer只是第三方工具,服務於ORACLE,類似的工具還有Toad,sqlplus,

developer , 大數據 , hive , PLSQL

收藏 評論

趙渝強老師 - 【趙渝強老師】Spark RDD的緩存機制

Spark RDD通過persist方法或cache方法可以將計算結果的緩存,但是並不是這兩個方法被調用時立即緩存,而是觸發後面的action時,該RDD才會被緩存在計算節點的內存中並供後面重用。下面是persist方法或cache方法的函數定義: def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def cache(): t

spark , 大數據

收藏 評論

mob64ca140c75c7 - spark udf 樣例

目錄 前言 SparkConf類的構造方法 Spark配置項的存儲 設置配置項 直接用Set類方法設置 通過系統屬性加載 克隆SparkConf 獲取配置項 校驗配置項 總結 前言 從本文開始,討論Spark基礎支撐

spark , 大數據 , 類方法 , spark udf 樣例 , 配置項 , 構造方法

收藏 評論

Aloudata大應科技 - AI 數據分析如何保障準確性?Aloudata Agent 構建可信數據基礎

前言: 在數字化轉型浪潮中,企業數據分析決策的時效性與準確性已成為競爭勝負的關鍵。隨着“Data + AI”融合加深,ChatBI 產品爆發式增長。但在當前市場中,大多數 ChatBI 產品依賴大模型直接生成 SQL 的技術路徑(NL2SQL),普遍面臨“大模型幻覺”導致的數據不可信問題——模型可能生成與事實不符、計算邏輯矛盾、口徑不一致甚至完全虛構的數據結果,直接影響分析決策質量。 如何突破這一

agent , 大數據 , 人工智能 , 數據分析 , 大模型

收藏 評論

北京辰輝創聚生物 - 呼吸道合胞病毒(HRSV)重組蛋白概述:F、G、N 等關鍵結構蛋白的類型與形式解析

一、人呼吸道合胞病毒概述 人呼吸道合胞病毒(Human Respiratory Syncytial Virus,HRSV,簡稱 RSV)屬於肺病毒科(Pneumoviridae)正鏈 RNA 病毒,病毒顆粒為包膜病毒,基因組長度約 15.2 kb,編碼多種結構蛋白和非結構蛋白。病毒表面分佈有多種跨膜糖蛋白,內部由核衣

HRSV 蛋白 , RSV G 蛋白 , 大數據 , 重組蛋白 , RSV F 蛋白 , 數據倉庫 , RSV 重組蛋白

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在自然語言處理中的對抗訓練與魯棒性提升

(centerJava 大視界 -- Java 大數據機器學習模型在自然語言處理中的對抗訓練與魯棒性提升/center) 引言 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!自然語言處理(NLP)作為人工智能領域的核心技術,在智能客服、智能寫作、信息檢索等場景中廣泛應用。然而,隨着應用的深入,對抗攻擊帶來的威脅日益凸顯。惡意攻擊者通過精心

機器學習 , spark , 魯棒性 , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , JAVA

收藏 評論

墨守成規de網工 - 可能是 2017 最全的機器學習開源項目列表 - 編輯部的個人空間 -

這個list僅提供參考,賽題二是一個較為開放的命題,範圍並不限於下文所提到的方向。本文檔用於幫助參賽選手快速查找並選擇適合的賽題方向與對應的 Issue。 所有任務均需以Issue + PR的形式提交,且 PR 必須引用對應的 Issue(例如在對應issue評論PR的link),方可計入有效成果。 文檔類賽題(Documentat

性能優化 , Core , issue , 大數據 , hadoop , 開源 , CUDA

收藏 評論