wang_yb 博客

Feb 07 2026

wang_yb - 決策樹極簡入門

我們在學習機器學習算法時，往往會被各種枯燥的數學公式所勸退。今天，我將嘗試用結合實際生活的方式，來介紹一個非常經典，而且可能是最“懂你心意”的算法——決策樹 (Decision Tree)。。別被這個術語嚇到了，其實你每天點外賣的時候都在用它。想象一下，下午三點，你站在奶茶店門口（或者打開了外賣App），面對眼花繚亂的菜單，你的大腦為了保護你的體重，立刻啓動了一個“決策樹”程序：這杯奶

後端

Feb 05 2026

wang_yb - 告別沉悶的直方圖：繪製高顏值的威爾金森圖與麥穗圖

在數據可視化世界中，我們經常用直方圖來描述數據的分佈情況，但今天我想介紹兩種特別而優雅的點狀圖變體：威爾金森點狀圖和麥穗圖。它們像數據世界的"點彩派"畫家，用簡單的點創造出豐富的信息層次。與直方圖相比，這種點繪法不僅能夠更直觀地展示數據分佈的細節，還能更好地揭示數據之間的關係和模式，使得觀察者能夠從更廣闊的視角理解數據集的特點。 1. 威爾金森點狀圖想象一下，你有一袋彩色彈珠，需要按顏色分類

後端

Feb 01 2026

wang_yb - 傾聽數據的聲音：給數據分析初學者的温馨建議

提到 “數據分析”，你的腦海裏浮現的是什麼？是密密麻麻的Excel表格，是複雜的Python代碼，還是令人眼花繚亂的儀表盤？很多想踏入這個行業的新人，往往一上來就陷入了工具的學習中。但實際上，工具只是手段。在成為一名“數據工匠”之前，你首先需要成為一名“數據思考者”。今天，我們拋開枯燥的定義，一起聊聊數據分析的本質究竟是什麼，以及我們該如何從零開始，培養一種能夠“透視”數據的思維方式。一、

程序人生

Jan 31 2026

wang_yb - 數據“顯微鏡”：蜂羣圖讓每個數據點都發聲

想象一下夏日的花叢中，成羣的蜜蜂圍繞着花朵忙碌地飛舞。每隻蜜蜂都是一個獨立的數據點，它們既保持羣體聚集的形態，又不會完全重疊在一起。這就是蜂羣圖（Swarm Plot）的核心理念——在有限的空間內展示所有數據點，讓每個點都能被清晰看見。蜂羣圖是一種特殊的數據可視化圖表，它將分類數據與數值數據結合起來，展示數據的分佈情況。與傳統的條形圖或箱線圖不同，蜂羣圖不進行任何數據聚合，而是展示每一個原始

後端

Jan 27 2026

wang_yb - 面積圖的奇妙變形：流圖與地平線圖

想象一下面積圖就像一層層疊起來的彩色玻璃片，每一層代表一個類別，從下往上堆疊，形成整體的視覺衝擊。但有時我們需要更特別的方式來展示數據的變化：是像河流一樣蜿蜒流淌，還是像地平線上的羣山連綿起伏？今天，本文將介紹兩種創意面積圖變體——流圖和地平線圖，它們能讓你的時間序列數據講述更生動的故事。 1. 流圖：數據的河流如果把傳統的堆疊面積圖想象成一塊塊整齊堆疊的積木，那麼流圖就像一條蜿蜒流淌的河流

後端

Jan 24 2026

wang_yb - 折線圖的奇妙變奏：四種創意可視化方法

想象一下折線圖就像一條普通的公路，它能帶我們從A點到達B點。但有時我們需要更特別的路線：環島、盤山公路、波浪形賽道或螺旋上升的通道。在數據可視化中，標準的折線圖有時無法充分展示數據的特性，這時我們就需要一些創意變種。今天將介紹四種特別的折線圖變體，它們各有所長，能讓你的數據故事更加生動。 1. 圓形折線圖：時間的輪迴如果把普通的折線圖首尾相連，放在圓形座標系中，就得到了圓形折線圖。它特別

後端

Jan 22 2026

wang_yb - 啞鈴圖：數據對比的優雅之選

簡潔的線條連接兩個數據點，就像啞鈴的兩端，在對比分析中展現出令人驚豔的清晰度。在平時的數據分析項目中，我經常會遇到比較兩個相關數據集的變化情況。這時，傳統的做法是使用堆積條形圖或簇狀條形圖，但它們存在一個共同問題：當我們需要精確追蹤每個項目在兩個時間點或兩種條件下的變化時，這些圖表會讓我們的眼睛在條形之間來回跳躍，難以直觀把握變化的幅度和方向。今天，我要向大家推薦一種更優雅的替代方案-

後端

Jan 18 2026

wang_yb - 打破堆積困局：優化堆積條形圖的對比效果

在數據可視化中，堆積條形圖擅長展示 “整體與構成” 的關係，但當每個柱子內的分段超過4個時，讀者很難同時追蹤各段的長度、位置與顏色映射，誤讀概率顯著上升。更糟的是，若不同類別的總量差異很大，堆積結構會放大視覺錯覺，導致“看起來差不多”的結論失真。今天，本文將嘗試探索一下改進堆積條形圖的呈現方式，讓複雜數據對比變得一目瞭然。如果大家有更好的方式，也歡迎指教，交流。完整的代碼會在文末提供共享

後端

Jan 17 2026

wang_yb - 你真的會用 Python 的 print 嗎？

大家好！今天我們來聊聊Python裏最 “平平無奇” 卻又無處不在的print()函數。作為Python開發者，我們幾乎每天都在用它，但你真的瞭解它的所有玩法嗎？其實很多時候，我們只用了它 10% 的功力。今天，我們就來扒一扒 print 函數的“隱秘角落”。掌握了它的幾個參數，保證讓你在同事眼中瞬間變身 Python 資深玩家！ 1. 基礎玩法：不僅僅是打印一個字符串如果你把鼠標懸停在

後端

Jan 15 2026

wang_yb - 【總結整理】軟件測試的反模式

最近看到一篇介紹軟件測試相關的文章，文章雖然比較早（2018年的），但是其中的觀點依然適用。在目前AI盛行的時候，軟件測試也必然迎來它的變化。我把文章中的要點整理了一下，這些測試的反模式涵蓋了從測試策略、代碼質量到心態管理的各個方面。原文的鏈接放在了文章的末尾。 1. 只有單元測試，沒有集成測試 (Having unit tests without integration tests)

軟件測試

Jan 13 2026

wang_yb - 當條形圖遇上極座標：徑向與圓形條形圖的視覺革命

想象一下，你正站在一個圓形廣場的中心，周圍均勻排列着12根高度不同的燈柱，這就是徑向條形圖帶給我們的視覺體驗。在數據可視化領域，我們常常滿足於傳統的直角座標系條形圖，但當數據具有周期性或比較性時，徑向條形圖和圓形條形圖為我們打開了新的可能性。 1. 設計原理這兩種圖表把傳統的笛卡爾座標系換成極座標系：角度表示類別，半徑或角度長度表示數值。 1.1. 徑向條形圖徑向條形圖本質上是將傳統條形圖的

後端

Jan 10 2026

wang_yb - 棒棒糖圖：當條形圖遇上極簡美學

棒棒糖圖（Lollipop Chart）可以看作是條形圖的一種“輕盈版”變體：它用一根從基準線延伸出來的“棒”，並在末端以一個“糖”（圓點）來表示數值，取代了傳統的矩形條。這種圖表傳達的信息與條形圖是一樣的，但它更注重突出數據點的位置，整體看起來更加清新、現代。今天，我們一起探索棒棒糖圖的優勢，並通過代碼實現，親手打造一個屬於自己的棒棒糖圖！設計原理設計棒棒糖圖的初衷有兩個方面：首先，通

後端

Jan 06 2026

wang_yb - 數據可視化五大黃金原則：讓你的圖表“會説話”

在日常工作中，你是否遇到過這種情況：你辛辛苦苦跑完數據，畫了一張圖表發給老闆或客户，結果對方盯着看了半天，問了一句：“所以，你想表達什麼？” 這就像講笑話沒人笑一樣尷尬。圖表的本質不是 “畫圖”，而是 “溝通”。今天，我將分享 5 個提升可視化效果的原則，並用 Python 的 matplotlib 庫手把手教你如何實現。 1. 原則1：展示數據，而非裝飾想象一下，你在閲讀一本小説，但每頁都充

後端

Jan 04 2026

wang_yb - 前注意加工：讓你的圖表抓住讀者的眼球

想象一下，你走進一個擠滿人的房間，朋友向你招手--你幾乎立刻就能看到他。這是因為“招手”這個動作在你的大腦進行深入思考之前，就已經被注意到了。再比如當你走在熙熙攘攘的大街上，如果所有人穿的都是黑灰色的大衣，而此時有一個人穿着鮮紅色的風衣，你會看哪裏？毫無疑問，你的目光會瞬間被那抹紅色吸引。這就是前注意加工：我們的大腦能在極短時間內（約200-250毫秒）自動檢測到某些視覺特徵，而無需我們有

後端

Jan 02 2026

wang_yb - 格式塔原理：數據可視化如何引導觀眾的注意力

在數據分析中，我們常説：“一張好的圖表勝過千言萬語。” 但很多時候，我們做出來的圖表卻是“千言萬語堵在心口難開”。讀者看了半天，抓不住重點。這是為什麼？因為人類的視覺感知遵循一套被稱為格式塔（Gestalt）的心理學原理。簡單來説，當我們看到一組物體時，大腦會自動將它們視為一個整體或一種模式，而不是孤立的碎片。下面我們用 Python 的 Matplotlib 庫，來演示格式塔（Ge

後端

Dec 30 2025

wang_yb - 迴歸分析全家桶（16種迴歸模型實現方式總結）

提到迴歸分析，很多人第一時間想到的只有“線性迴歸”和“邏輯迴歸”。但實際上，針對不同的數據情況（比如有離羣點、數據是計數的、數據有缺失截斷等），我們有十幾種迴歸模型可以選擇。今天為大家總結了 16種迴歸分析的模型，重點不是介紹這些迴歸模型的原理，而是介紹如何在Python代碼中使用這些模型，希望你以後能夠在實戰中來應用這些模型！ 1. 迴歸分析全家桶下面介紹如何使用各種迴歸模型的示例代碼，主

後端

Dec 28 2025

wang_yb - 數據分析師的“水晶球”：時間序列分析

很多剛入行的小夥伴問我：“我想預測下個月公司的銷售額，或者預測一下明天的股價，該學什麼？” 我的回答通常只有六個字：時間序列分析。如果在數據分析的世界裏有一種魔法能讓你“預知未來”，那一定就是它。 1. 什麼是時間序列？別被名詞嚇到了。簡單來説，時間序列（Time Series）就是按時間順序排列的一組數據。比如：你手機裏每天的步數記錄；某隻股票每天的收盤價；或者是你家樓下便利

後端

Dec 23 2025

wang_yb - 拒絕“憑感覺”：用迴歸分析看透數據背後的秘密

在數據分析的江湖裏，有一個絕對的核心技能，叫做迴歸分析（Regression Analysis）。無論你是剛入行的新手，還是想要進階的老手，掌握它，你就擁有了預測未來的“水晶球”。很多初學者一聽到“迴歸”兩個字，腦子裏全是複雜的數學公式，立刻想打退堂鼓。別急！今天我們不講枯燥的數學推導，只講它是什麼、怎麼用，以及如何用Python代碼解決實際問題。 1. 什麼是迴歸分析？想象一下，你正在做

後端

Dec 19 2025

wang_yb - 掌握相關性分析：讀懂數據間的“悄悄話”

在數據分析的江湖裏，我們經常會聽到老闆或業務方拋出這樣的問題： “現在的年輕人越晚睡，買護膚品是不是越瘋狂？” “我們APP的各種優惠券，真的能提升用户的留存率嗎？” “天氣越熱，這隻股票是不是跌得越慘？” 面對這些問題，很多新人容易犯 “憑感覺” 的錯誤：“我覺得應該有關係吧……” 數據分析不相信“我覺得”，只相信證據。而尋找變量之間關係強弱的這個過程，就叫做相關分析。今天，就帶大

數據庫

Dec 15 2025

wang_yb - 數據點的“社交距離”：衡量它們之間的相似與差異

在數據分析的世界裏， “距離” 不僅僅是地圖上兩點之間的路程。距離，本質上是衡量兩個事物 “相似度” 的尺子。距離越近 = 相似度越高距離越遠 = 差異越大如果你想做用户畫像聚類、想做商品推薦系統，或者想識別信用卡欺詐交易，你首先要選對這把“尺子”。本文將帶你全面瞭解數據分析中常用的各種距離度量，從最直觀的歐氏距離到複雜的時間序列距離。為了方便理解，我將它們分為了五大門派。

後端

Dec 11 2025

wang_yb - 搞懂“元數據”：給數據辦一張“身份證”

你是否經歷過這樣的場景：同事發給你一個 Excel 表格，文件名叫 data_final_v2.xlsx。你滿懷期待地打開，結果發現：表頭是 cryptic 的英文縮寫（如 c_amt, usr_stat）；有一列全是數字 1, 0, 1, 0，你猜不出這代表“男女”還是“是否活躍”；你根本不知道這份數據是今天的，還是上個月的過期數據。這時候，你面對着一大堆數據，卻感到兩眼一

數據庫

Dec 08 2025

wang_yb - 數據會説謊？三大推斷方法幫你“審問”數據真相

很多剛入行甚至想入行數據分析的朋友，往往會陷入一個誤區：以為數據分析就是不停地做報表、畫餅圖。其實，數據分析的核心魅力在於 “推斷”——即見微知著。在現實生活中，我們很難獲取“全量數據”（比如你不可能調查全國每一個人的身高），那麼，如何通過手中的“小樣本”去推測“大總體”的規律？這就需要用到統計學中的推斷分析。本文將結合代碼來介紹推斷分析中最常用的三大方法：參數估計、假設檢驗、非參數檢驗。

後端

Dec 05 2025

wang_yb - 用樣本猜總體的秘密武器，4大抽樣分佈總結

數據分析時，我們經常需要從樣本數據推斷總體特徵。而抽樣分佈就是連接樣本與總體的重要橋樑，如果你不理解它，就無法理解為什麼我們可以通過調查幾千人來預測全國的選舉結果，也無法理解A/B測試背後的邏輯。本文將盡量使用大白話和Python代碼，帶你徹底搞懂抽樣分佈，並掌握最常用的四大分佈：Z分佈、T分佈、卡方分佈和F分佈。 1. 什麼是抽樣分佈想象一下，你想了解全市高中生的平均身高，由於時間和資源限

後端

Dec 02 2025

wang_yb - Manim v0.19.1 發佈啦！三大新特性讓動畫製作更絲滑

大家好！Manim 社區剛剛發佈了 v0.19.1 版本（發佈於 12 月 1 日）。雖然這是一個小版本號更新，但裏面可是藏着幾個非常實用的新功能！無論你是剛入坑的新手，或者已經被某些痛點折磨過的老手，這篇更新速覽都值得一看。 1. 🌟 亮點一：終於可以“固定”隨機顏色了！以前我們在使用 random_color() 時，最大的痛點就是：每次運行腳本，生成的顏色都不一樣！有時候你覺得

後端