lu952450497 博客

Dec 21 2025

lu952450497 - 基於信任的協同過濾算法解析與 Python 實現（一）

一、為什麼需要“信任” 傳統 User-CF 的核心假設是：相似用户 = 好的推薦來源但在真實系統中存在明顯問題：數據稀疏下，相似度極不穩定相似 ≠ 可靠（刷單、噪聲用户）用户行為具有明顯的“圈層”效應在很多產品中（社交、社區、電商）：用户之間存在顯式或隱式關係朋友 / 關注 / 專家的行為

顯式 , 相似度 , 權重 , 人工智能 , 數據結構與算法

Dec 14 2025

lu952450497 - KNN算法實現

一、KNN 算法是什麼 KNN（k-Nearest Neighbors）是最近鄰類算法中最經典的一種，用於：分類問題（多數投票）迴歸問題（均值 / 加權均值）核心思想一句話：一個樣本屬於哪一類，由“離它最近的 K 個樣本”決定。 KNN 沒有訓練過程，本質是基於距離的搜索算法。二、算法數學定義給定：

相似度 , 人工智能 , 數據結構與算法 , ide , Python

Dec 13 2025

lu952450497 - 近鄰類算法

一、什麼是最近鄰類算法最近鄰類算法（Nearest Neighbor, NN）的核心問題是：在給定空間中，找到與目標樣本“距離最近”的一個或多個樣本。形式化描述：已知數據集：( D = {x_1, x_2, ..., x_n} ) 給定查詢點：( q ) 定義距離函數：( dist(x, q) ) 目標：

複雜度 , 搜索 , 人工智能 , 數據結構與算法 , 暴力法

Dec 08 2025

lu952450497 - 離線數倉與實時數倉的應用場景與對比

數據倉庫的建設從傳統離線架構逐步演進到實時架構，是企業數字化能力成熟的重要階段。離線數倉強調批處理、週期加工、結構穩定和歷史追溯；實時數倉強調秒級至分鐘級數據更新、事件驅動和業務反饋閉環。兩者不是互斥關係，而是面向不同業務訴求的差異化建設方向。一、離線數倉的特徵核心特徵離線數倉基於批處理思想：每日/每小時調度任務產出數據以 T+

批處理 , 大數據 , 數據 , 離線 , 數據倉庫

Dec 07 2025

lu952450497 - 數據建模中不同模型的區別與適用場景的討論

數據建模是數據開發體系中的核心環節，它直接決定數據資產質量、可維護性、複用能力，以及最終對業務價值的支撐能力。建模不是單純字段命名與表結構設計，而是一套體系化的抽象方法論。此文將從模型體系説明開始，逐一拆解建模方式區別、典型適配場景與落地難點。 1. 為什麼需要數據建模數據建模目標並非“定義表結構”，而是實現：指標口徑統一跨主題數據複用

大數據 , 建模 , 數據 , 數據倉庫 , 複用

Dec 06 2025

lu952450497 - 數據開發中的技術選型：從業務訴求到方案落地的全流程思考

企業的數據開發體系，往往伴隨着業務規模增長逐步演進。數據的產生源頭複雜、數據量不斷擴大、業務部門對數據的依賴程度提高，導致數據開發能力是否合理選型，將直接影響數據平台的穩定性、擴展性以及成本投入。一、需求分析是技術選型的起點在很多實際項目中，技術選型失敗主要不是因為技術不好，而是對實際訴求理解不清。技術選型之前應明確以下問題：數據規

技術選型 , 大數據 , 數據 , hive , 數據倉庫

Dec 05 2025

lu952450497 - 數倉開發——數據倉庫基礎概念與核心價值

數據倉庫是企業數據戰略的核心組成部分，面向主題的、集成的、相對穩定的、反映歷史變化的數據集合，用於支持管理決策。面向主題：面向主題意味着數據按業務領域（如客户、產品）組織而非按業務系統集成：集成性指數據經過標準化處理消除源系統間的不一致相對穩定：非易失性表示數據一旦進入倉庫一般不直接修改時變性：強調數據會記錄時間維度變化與操作型數據庫（OLTP）相比，數據倉庫（

數據集 , 大數據 , 數據 , 數據倉庫

lu952450497 博客

博客 / 列表