博客 / 列表

wang_yb - 決策樹極簡入門

我們在學習機器學習算法時,往往會被各種枯燥的數學公式所勸退。 今天,我將嘗試用結合實際生活的方式,來介紹一個非常經典,而且可能是最“懂你心意”的算法——決策樹 (Decision Tree)。。 別被這個術語嚇到了,其實你每天點外賣的時候都在用它。 想象一下,下午三點,你站在奶茶店門口(或者打開了外賣App),面對眼花繚亂的菜單,你的大腦為了保護你的體重,立刻啓動了一個“決策樹”程序: 這杯奶

後端

wang_yb - 告別沉悶的直方圖:繪製高顏值的威爾金森圖與麥穗圖

在數據可視化世界中,我們經常用直方圖來描述數據的分佈情況,但今天我想介紹兩種特別而優雅的點狀圖變體:威爾金森點狀圖和麥穗圖。 它們像數據世界的"點彩派"畫家,用簡單的點創造出豐富的信息層次。 與直方圖相比,這種點繪法不僅能夠更直觀地展示數據分佈的細節,還能更好地揭示數據之間的關係和模式,使得觀察者能夠從更廣闊的視角理解數據集的特點。 1. 威爾金森點狀圖 想象一下,你有一袋彩色彈珠,需要按顏色分類

後端

wang_yb - 傾聽數據的聲音:給數據分析初學者的温馨建議

提到 “數據分析”,你的腦海裏浮現的是什麼?是密密麻麻的Excel表格,是複雜的Python代碼,還是令人眼花繚亂的儀表盤? 很多想踏入這個行業的新人,往往一上來就陷入了工具的學習中。 但實際上,工具只是手段。在成為一名“數據工匠”之前,你首先需要成為一名“數據思考者”。 今天,我們拋開枯燥的定義,一起聊聊數據分析的本質究竟是什麼,以及我們該如何從零開始,培養一種能夠“透視”數據的思維方式。 一、

程序人生

wang_yb - 數據“顯微鏡”:蜂羣圖讓每個數據點都發聲

想象一下夏日的花叢中,成羣的蜜蜂圍繞着花朵忙碌地飛舞。每隻蜜蜂都是一個獨立的數據點,它們既保持羣體聚集的形態,又不會完全重疊在一起。 這就是蜂羣圖(Swarm Plot)的核心理念——在有限的空間內展示所有數據點,讓每個點都能被清晰看見。 蜂羣圖是一種特殊的數據可視化圖表,它將分類數據與數值數據結合起來,展示數據的分佈情況。 與傳統的條形圖或箱線圖不同,蜂羣圖不進行任何數據聚合,而是展示每一個原始

後端

wang_yb - 面積圖的奇妙變形:流圖與地平線圖

想象一下面積圖就像一層層疊起來的彩色玻璃片,每一層代表一個類別,從下往上堆疊,形成整體的視覺衝擊。 但有時我們需要更特別的方式來展示數據的變化:是像河流一樣蜿蜒流淌,還是像地平線上的羣山連綿起伏? 今天,本文將介紹兩種創意面積圖變體——流圖和地平線圖,它們能讓你的時間序列數據講述更生動的故事。 1. 流圖:數據的河流 如果把傳統的堆疊面積圖想象成一塊塊整齊堆疊的積木,那麼流圖就像一條蜿蜒流淌的河流

後端

wang_yb - 折線圖的奇妙變奏:四種創意可視化方法

想象一下折線圖就像一條普通的公路,它能帶我們從A點到達B點。 但有時我們需要更特別的路線:環島、盤山公路、波浪形賽道或螺旋上升的通道。 在數據可視化中,標準的折線圖有時無法充分展示數據的特性,這時我們就需要一些創意變種。 今天將介紹四種特別的折線圖變體,它們各有所長,能讓你的數據故事更加生動。 1. 圓形折線圖:時間的輪迴 如果把普通的折線圖首尾相連,放在圓形座標系中,就得到了圓形折線圖。 它特別

後端

wang_yb - 啞鈴圖:數據對比的優雅之選

簡潔的線條連接兩個數據點,就像啞鈴的兩端,在對比分析中展現出令人驚豔的清晰度。 在平時的數據分析項目中,我經常會遇到比較兩個相關數據集的變化情況。 這時,傳統的做法是使用堆積條形圖或簇狀條形圖,但它們存在一個共同問題:當我們需要精確追蹤每個項目在兩個時間點或兩種條件下的變化時,這些圖表會讓我們的眼睛在條形之間來回跳躍,難以直觀把握變化的幅度和方向。 今天,我要向大家推薦一種更優雅的替代方案-

後端

wang_yb - 打破堆積困局:優化堆積條形圖的對比效果

在數據可視化中,堆積條形圖 擅長展示 “整體與構成” 的關係,但當每個柱子內的分段超過4個時,讀者很難同時追蹤各段的長度、位置與顏色映射, 誤讀概率顯著上升。 更糟的是,若不同類別的總量差異很大,堆積結構會放大視覺錯覺,導致“看起來差不多”的結論失真。 今天,本文將嘗試探索一下改進堆積條形圖的呈現方式,讓複雜數據對比變得一目瞭然。 如果大家有更好的方式,也歡迎指教,交流。完整的代碼會在文末提供共享

後端

wang_yb - 你真的會用 Python 的 print 嗎?

大家好!今天我們來聊聊Python裏最 “平平無奇” 卻又無處不在的print()函數。 作為Python開發者,我們幾乎每天都在用它,但你真的瞭解它的所有玩法嗎? 其實很多時候,我們只用了它 10% 的功力。 今天,我們就來扒一扒 print 函數的“隱秘角落”。 掌握了它的幾個參數,保證讓你在同事眼中瞬間變身 Python 資深玩家! 1. 基礎玩法:不僅僅是打印一個字符串 如果你把鼠標懸停在

後端

wang_yb - 【總結整理】軟件測試的反模式

最近看到一篇介紹軟件測試相關的文章,文章雖然比較早(2018年的),但是其中的觀點依然適用。 在目前AI盛行的時候,軟件測試也必然迎來它的變化。 我把文章中的要點整理了一下,這些測試的反模式涵蓋了從測試策略、代碼質量到心態管理的各個方面。 原文的鏈接放在了文章的末尾。 1. 只有單元測試,沒有集成測試 (Having unit tests without integration tests)

軟件測試

wang_yb - 當條形圖遇上極座標:徑向與圓形條形圖的視覺革命

想象一下,你正站在一個圓形廣場的中心,周圍均勻排列着12根高度不同的燈柱,這就是徑向條形圖帶給我們的視覺體驗。 在數據可視化領域,我們常常滿足於傳統的直角座標系條形圖,但當數據具有周期性或比較性時,徑向條形圖和圓形條形圖為我們打開了新的可能性。 1. 設計原理 這兩種圖表把傳統的笛卡爾座標系換成極座標系:角度表示類別,半徑或角度長度表示數值。 1.1. 徑向條形圖 徑向條形圖本質上是將傳統條形圖的

後端

wang_yb - 棒棒糖圖:當條形圖遇上極簡美學

棒棒糖圖(Lollipop Chart)可以看作是條形圖的一種“輕盈版”變體:它用一根從基準線延伸出來的“棒”,並在末端以一個“糖”(圓點)來表示數值,取代了傳統的矩形條。 這種圖表傳達的信息與條形圖是一樣的,但它更注重突出數據點的位置,整體看起來更加清新、現代。 今天,我們一起探索棒棒糖圖的優勢,並通過代碼實現,親手打造一個屬於自己的棒棒糖圖! 設計原理 設計棒棒糖圖的初衷有兩個方面: 首先,通

後端

wang_yb - 數據可視化五大黃金原則:讓你的圖表“會説話”

在日常工作中,你是否遇到過這種情況:你辛辛苦苦跑完數據,畫了一張圖表發給老闆或客户,結果對方盯着看了半天,問了一句:“所以,你想表達什麼?” 這就像講笑話沒人笑一樣尷尬。圖表的本質不是 “畫圖”,而是 “溝通”。 今天,我將分享 5 個提升可視化效果的原則,並用 Python 的 matplotlib 庫手把手教你如何實現。 1. 原則1:展示數據,而非裝飾 想象一下,你在閲讀一本小説,但每頁都充

後端

wang_yb - 前注意加工:讓你的圖表抓住讀者的眼球

想象一下,你走進一個擠滿人的房間,朋友向你招手--你幾乎立刻就能看到他。 這是因為“招手”這個動作在你的大腦進行深入思考之前,就已經被注意到了。 再比如當你走在熙熙攘攘的大街上,如果所有人穿的都是黑灰色的大衣,而此時有一個人穿着鮮紅色的風衣,你會看哪裏? 毫無疑問,你的目光會瞬間被那抹紅色吸引。 這就是前注意加工:我們的大腦能在極短時間內(約200-250毫秒)自動檢測到某些視覺特徵,而無需我們有

後端

wang_yb - 格式塔原理:數據可視化如何引導觀眾的注意力

在數據分析中,我們常説:“一張好的圖表勝過千言萬語。” 但很多時候,我們做出來的圖表卻是“千言萬語堵在心口難開”。讀者看了半天,抓不住重點。 這是為什麼? 因為人類的視覺感知遵循一套被稱為 格式塔(Gestalt) 的心理學原理。 簡單來説,當我們看到一組物體時,大腦會自動將它們視為一個整體或一種模式,而不是孤立的碎片。 下面我們用 Python 的 Matplotlib 庫,來演示 格式塔(Ge

後端

wang_yb - 迴歸分析全家桶(16種迴歸模型實現方式總結)

提到迴歸分析,很多人第一時間想到的只有“線性迴歸”和“邏輯迴歸”。但實際上,針對不同的數據情況(比如有離羣點、數據是計數的、數據有缺失截斷等),我們有十幾種迴歸模型可以選擇。 今天為大家總結了 16種迴歸分析 的模型,重點不是介紹這些迴歸模型的原理,而是介紹如何在Python代碼中使用這些模型,希望你以後能夠在實戰中來應用這些模型! 1. 迴歸分析全家桶 下面介紹如何使用各種迴歸模型的示例代碼,主

後端

wang_yb - 數據分析師的“水晶球”:時間序列分析

很多剛入行的小夥伴問我:“我想預測下個月公司的銷售額,或者預測一下明天的股價,該學什麼?” 我的回答通常只有六個字:時間序列分析。 如果在數據分析的世界裏有一種魔法能讓你“預知未來”,那一定就是它。 1. 什麼是時間序列? 別被名詞嚇到了。簡單來説,時間序列(Time Series)就是按時間順序排列的一組數據。 比如: 你手機裏每天的步數記錄; 某隻股票每天的收盤價; 或者是你家樓下便利

後端

wang_yb - 拒絕“憑感覺”:用迴歸分析看透數據背後的秘密

在數據分析的江湖裏,有一個絕對的核心技能,叫做迴歸分析(Regression Analysis)。 無論你是剛入行的新手,還是想要進階的老手,掌握它,你就擁有了預測未來的“水晶球”。 很多初學者一聽到“迴歸”兩個字,腦子裏全是複雜的數學公式,立刻想打退堂鼓。 別急!今天我們不講枯燥的數學推導,只講它是什麼、怎麼用,以及如何用Python代碼解決實際問題。 1. 什麼是迴歸分析? 想象一下,你正在做

後端

wang_yb - 掌握相關性分析:讀懂數據間的“悄悄話”

在數據分析的江湖裏,我們經常會聽到老闆或業務方拋出這樣的問題: “現在的年輕人越晚睡,買護膚品是不是越瘋狂?” “我們APP的各種優惠券,真的能提升用户的留存率嗎?” “天氣越熱,這隻股票是不是跌得越慘?” 面對這些問題,很多新人容易犯 “憑感覺” 的錯誤:“我覺得應該有關係吧……” 數據分析不相信“我覺得”,只相信證據。 而尋找變量之間關係強弱的這個過程,就叫做相關分析。 今天,就帶大

數據庫

wang_yb - 數據點的“社交距離”:衡量它們之間的相似與差異

在數據分析的世界裏, “距離” 不僅僅是地圖上兩點之間的路程。 距離 ,本質上是衡量兩個事物 “相似度” 的尺子。 距離越近 = 相似度越高 距離越遠 = 差異越大 如果你想做用户畫像聚類、想做商品推薦系統,或者想識別信用卡欺詐交易,你首先要選對這把“尺子”。 本文將帶你全面瞭解數據分析中常用的各種距離度量,從最直觀的歐氏距離到複雜的時間序列距離。 為了方便理解,我將它們分為了五大門派。

後端

wang_yb - 搞懂“元數據”:給數據辦一張“身份證”

你是否經歷過這樣的場景: 同事發給你一個 Excel 表格,文件名叫 data_final_v2.xlsx。 你滿懷期待地打開,結果發現: 表頭是 cryptic 的英文縮寫(如 c_amt, usr_stat); 有一列全是數字 1, 0, 1, 0,你猜不出這代表“男女”還是“是否活躍”; 你根本不知道這份數據是今天的,還是上個月的過期數據。 這時候,你面對着一大堆數據,卻感到兩眼一

數據庫

wang_yb - 數據會説謊?三大推斷方法幫你“審問”數據真相

很多剛入行甚至想入行數據分析的朋友,往往會陷入一個誤區:以為數據分析就是不停地做報表、畫餅圖。 其實,數據分析的核心魅力在於 “推斷”——即見微知著。 在現實生活中,我們很難獲取“全量數據”(比如你不可能調查全國每一個人的身高),那麼,如何通過手中的“小樣本”去推測“大總體”的規律? 這就需要用到統計學中的推斷分析。 本文將結合代碼來介紹推斷分析中最常用的三大方法:參數估計、假設檢驗、非參數檢驗。

後端

wang_yb - 用樣本猜總體的秘密武器,4大抽樣分佈總結

數據分析時,我們經常需要從樣本數據推斷總體特徵。 而抽樣分佈就是連接樣本與總體的重要橋樑,如果你不理解它,就無法理解為什麼我們可以通過調查幾千人來預測全國的選舉結果,也無法理解A/B測試背後的邏輯。 本文將盡量使用大白話和Python代碼,帶你徹底搞懂抽樣分佈,並掌握最常用的四大分佈:Z分佈、T分佈、卡方分佈和F分佈。 1. 什麼是抽樣分佈 想象一下,你想了解全市高中生的平均身高,由於時間和資源限

後端

wang_yb - Manim v0.19.1 發佈啦!三大新特性讓動畫製作更絲滑

大家好!Manim 社區剛剛發佈了 v0.19.1 版本(發佈於 12 月 1 日)。雖然這是一個小版本號更新,但裏面可是藏着幾個非常實用的新功能! 無論你是剛入坑的新手,或者已經被某些痛點折磨過的老手,這篇更新速覽都值得一看。 1. 🌟 亮點一:終於可以“固定”隨機顏色了! 以前我們在使用 random_color() 時,最大的痛點就是:每次運行腳本,生成的顏色都不一樣! 有時候你覺得

後端