博客 / 列表

lu952450497 - 基於信任的協同過濾算法解析與 Python 實現(一)

一、為什麼需要“信任” 傳統 User-CF 的核心假設是: 相似用户 = 好的推薦來源 但在真實系統中存在明顯問題: 數據稀疏下,相似度極不穩定 相似 ≠ 可靠(刷單、噪聲用户) 用户行為具有明顯的“圈層”效應 在很多產品中(社交、社區、電商): 用户之間存在 顯式或隱式關係 朋友 / 關注 / 專家 的行為

顯式 , 相似度 , 權重 , 人工智能 , 數據結構與算法

lu952450497 - KNN算法實現

一、KNN 算法是什麼 KNN(k-Nearest Neighbors) 是最近鄰類算法中最經典的一種,用於: 分類問題(多數投票) 迴歸問題(均值 / 加權均值) 核心思想一句話: 一個樣本屬於哪一類,由“離它最近的 K 個樣本”決定。 KNN 沒有訓練過程,本質是 基於距離的搜索算法。 二、算法數學定義 給定:

相似度 , 人工智能 , 數據結構與算法 , ide , Python

lu952450497 - 近鄰類算法

一、什麼是最近鄰類算法 最近鄰類算法(Nearest Neighbor, NN) 的核心問題是: 在給定空間中,找到與目標樣本“距離最近”的一個或多個樣本。 形式化描述: 已知數據集:( D = {x_1, x_2, ..., x_n} ) 給定查詢點:( q ) 定義距離函數:( dist(x, q) ) 目標:

複雜度 , 搜索 , 人工智能 , 數據結構與算法 , 暴力法

lu952450497 - 離線數倉與實時數倉的應用場景與對比

數據倉庫的建設從傳統離線架構逐步演進到實時架構,是企業數字化能力成熟的重要階段。離線數倉強調批處理、週期加工、結構穩定和歷史追溯;實時數倉強調秒級至分鐘級數據更新、事件驅動和業務反饋閉環。兩者不是互斥關係,而是面向不同業務訴求的差異化建設方向。 一、離線數倉的特徵 核心特徵 離線數倉基於批處理思想: 每日/每小時調度任務產出數據 以 T+

批處理 , 大數據 , 數據 , 離線 , 數據倉庫

lu952450497 - 數據建模中不同模型的區別與適用場景的討論

數據建模是數據開發體系中的核心環節,它直接決定數據資產質量、可維護性、複用能力,以及最終對業務價值的支撐能力。建模不是單純字段命名與表結構設計,而是一套體系化的抽象方法論。此文將從模型體系説明開始,逐一拆解建模方式區別、典型適配場景與落地難點。 1. 為什麼需要數據建模 數據建模目標並非“定義表結構”,而是實現: 指標口徑統一 跨主題數據複用

大數據 , 建模 , 數據 , 數據倉庫 , 複用

lu952450497 - 數據開發中的技術選型:從業務訴求到方案落地的全流程思考

企業的數據開發體系,往往伴隨着業務規模增長逐步演進。數據的產生源頭複雜、數據量不斷擴大、業務部門對數據的依賴程度提高,導致數據開發能力是否合理選型,將直接影響數據平台的穩定性、擴展性以及成本投入。 一、需求分析是技術選型的起點 在很多實際項目中,技術選型失敗主要不是因為技術不好,而是對實際訴求理解不清。技術選型之前應明確以下問題: 數據規

技術選型 , 大數據 , 數據 , hive , 數據倉庫

lu952450497 - 數倉開發——數據倉庫基礎概念與核心價值

數據倉庫是企業數據戰略的核心組成部分,面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策。 面向主題:面向主題意味着數據按業務領域(如客户、產品)組織而非按業務系統 集成:集成性指數據經過標準化處理消除源系統間的不一致 相對穩定:非易失性表示數據一旦進入倉庫一般不直接修改 時變性:強調數據會記錄時間維度變化 與操作型數據庫(OLTP)相比,數據倉庫(

數據集 , 大數據 , 數據 , 數據倉庫