wang_yb -
決策樹極簡入門
我們在學習機器學習算法時,往往會被各種枯燥的數學公式所勸退。
今天,我將嘗試用結合實際生活的方式,來介紹一個非常經典,而且可能是最“懂你心意”的算法——決策樹 (Decision Tree)。。
別被這個術語嚇到了,其實你每天點外賣的時候都在用它。
想象一下,下午三點,你站在奶茶店門口(或者打開了外賣App),面對眼花繚亂的菜單,你的大腦為了保護你的體重,立刻啓動了一個“決策樹”程序:
這杯奶
後端
wang_yb -
告別沉悶的直方圖:繪製高顏值的威爾金森圖與麥穗圖
在數據可視化世界中,我們經常用直方圖來描述數據的分佈情況,但今天我想介紹兩種特別而優雅的點狀圖變體:威爾金森點狀圖和麥穗圖。
它們像數據世界的"點彩派"畫家,用簡單的點創造出豐富的信息層次。
與直方圖相比,這種點繪法不僅能夠更直觀地展示數據分佈的細節,還能更好地揭示數據之間的關係和模式,使得觀察者能夠從更廣闊的視角理解數據集的特點。
1. 威爾金森點狀圖
想象一下,你有一袋彩色彈珠,需要按顏色分類
後端
wang_yb -
傾聽數據的聲音:給數據分析初學者的温馨建議
提到 “數據分析”,你的腦海裏浮現的是什麼?是密密麻麻的Excel表格,是複雜的Python代碼,還是令人眼花繚亂的儀表盤?
很多想踏入這個行業的新人,往往一上來就陷入了工具的學習中。
但實際上,工具只是手段。在成為一名“數據工匠”之前,你首先需要成為一名“數據思考者”。
今天,我們拋開枯燥的定義,一起聊聊數據分析的本質究竟是什麼,以及我們該如何從零開始,培養一種能夠“透視”數據的思維方式。
一、
程序人生
wang_yb -
數據“顯微鏡”:蜂羣圖讓每個數據點都發聲
想象一下夏日的花叢中,成羣的蜜蜂圍繞着花朵忙碌地飛舞。每隻蜜蜂都是一個獨立的數據點,它們既保持羣體聚集的形態,又不會完全重疊在一起。
這就是蜂羣圖(Swarm Plot)的核心理念——在有限的空間內展示所有數據點,讓每個點都能被清晰看見。
蜂羣圖是一種特殊的數據可視化圖表,它將分類數據與數值數據結合起來,展示數據的分佈情況。
與傳統的條形圖或箱線圖不同,蜂羣圖不進行任何數據聚合,而是展示每一個原始
後端
wang_yb -
面積圖的奇妙變形:流圖與地平線圖
想象一下面積圖就像一層層疊起來的彩色玻璃片,每一層代表一個類別,從下往上堆疊,形成整體的視覺衝擊。
但有時我們需要更特別的方式來展示數據的變化:是像河流一樣蜿蜒流淌,還是像地平線上的羣山連綿起伏?
今天,本文將介紹兩種創意面積圖變體——流圖和地平線圖,它們能讓你的時間序列數據講述更生動的故事。
1. 流圖:數據的河流
如果把傳統的堆疊面積圖想象成一塊塊整齊堆疊的積木,那麼流圖就像一條蜿蜒流淌的河流
後端
wang_yb -
折線圖的奇妙變奏:四種創意可視化方法
想象一下折線圖就像一條普通的公路,它能帶我們從A點到達B點。
但有時我們需要更特別的路線:環島、盤山公路、波浪形賽道或螺旋上升的通道。
在數據可視化中,標準的折線圖有時無法充分展示數據的特性,這時我們就需要一些創意變種。
今天將介紹四種特別的折線圖變體,它們各有所長,能讓你的數據故事更加生動。
1. 圓形折線圖:時間的輪迴
如果把普通的折線圖首尾相連,放在圓形座標系中,就得到了圓形折線圖。
它特別
後端
wang_yb -
啞鈴圖:數據對比的優雅之選
簡潔的線條連接兩個數據點,就像啞鈴的兩端,在對比分析中展現出令人驚豔的清晰度。
在平時的數據分析項目中,我經常會遇到比較兩個相關數據集的變化情況。
這時,傳統的做法是使用堆積條形圖或簇狀條形圖,但它們存在一個共同問題:當我們需要精確追蹤每個項目在兩個時間點或兩種條件下的變化時,這些圖表會讓我們的眼睛在條形之間來回跳躍,難以直觀把握變化的幅度和方向。
今天,我要向大家推薦一種更優雅的替代方案-
後端
wang_yb -
打破堆積困局:優化堆積條形圖的對比效果
在數據可視化中,堆積條形圖 擅長展示 “整體與構成” 的關係,但當每個柱子內的分段超過4個時,讀者很難同時追蹤各段的長度、位置與顏色映射, 誤讀概率顯著上升。
更糟的是,若不同類別的總量差異很大,堆積結構會放大視覺錯覺,導致“看起來差不多”的結論失真。
今天,本文將嘗試探索一下改進堆積條形圖的呈現方式,讓複雜數據對比變得一目瞭然。
如果大家有更好的方式,也歡迎指教,交流。完整的代碼會在文末提供共享
後端
wang_yb -
你真的會用 Python 的 print 嗎?
大家好!今天我們來聊聊Python裏最 “平平無奇” 卻又無處不在的print()函數。
作為Python開發者,我們幾乎每天都在用它,但你真的瞭解它的所有玩法嗎?
其實很多時候,我們只用了它 10% 的功力。
今天,我們就來扒一扒 print 函數的“隱秘角落”。
掌握了它的幾個參數,保證讓你在同事眼中瞬間變身 Python 資深玩家!
1. 基礎玩法:不僅僅是打印一個字符串
如果你把鼠標懸停在
後端
wang_yb -
【總結整理】軟件測試的反模式
最近看到一篇介紹軟件測試相關的文章,文章雖然比較早(2018年的),但是其中的觀點依然適用。
在目前AI盛行的時候,軟件測試也必然迎來它的變化。
我把文章中的要點整理了一下,這些測試的反模式涵蓋了從測試策略、代碼質量到心態管理的各個方面。
原文的鏈接放在了文章的末尾。
1. 只有單元測試,沒有集成測試 (Having unit tests without integration tests)
軟件測試
wang_yb -
當條形圖遇上極座標:徑向與圓形條形圖的視覺革命
想象一下,你正站在一個圓形廣場的中心,周圍均勻排列着12根高度不同的燈柱,這就是徑向條形圖帶給我們的視覺體驗。
在數據可視化領域,我們常常滿足於傳統的直角座標系條形圖,但當數據具有周期性或比較性時,徑向條形圖和圓形條形圖為我們打開了新的可能性。
1. 設計原理
這兩種圖表把傳統的笛卡爾座標系換成極座標系:角度表示類別,半徑或角度長度表示數值。
1.1. 徑向條形圖
徑向條形圖本質上是將傳統條形圖的
後端
wang_yb -
棒棒糖圖:當條形圖遇上極簡美學
棒棒糖圖(Lollipop Chart)可以看作是條形圖的一種“輕盈版”變體:它用一根從基準線延伸出來的“棒”,並在末端以一個“糖”(圓點)來表示數值,取代了傳統的矩形條。
這種圖表傳達的信息與條形圖是一樣的,但它更注重突出數據點的位置,整體看起來更加清新、現代。
今天,我們一起探索棒棒糖圖的優勢,並通過代碼實現,親手打造一個屬於自己的棒棒糖圖!
設計原理
設計棒棒糖圖的初衷有兩個方面:
首先,通
後端
wang_yb -
數據可視化五大黃金原則:讓你的圖表“會説話”
在日常工作中,你是否遇到過這種情況:你辛辛苦苦跑完數據,畫了一張圖表發給老闆或客户,結果對方盯着看了半天,問了一句:“所以,你想表達什麼?”
這就像講笑話沒人笑一樣尷尬。圖表的本質不是 “畫圖”,而是 “溝通”。
今天,我將分享 5 個提升可視化效果的原則,並用 Python 的 matplotlib 庫手把手教你如何實現。
1. 原則1:展示數據,而非裝飾
想象一下,你在閲讀一本小説,但每頁都充
後端
wang_yb -
前注意加工:讓你的圖表抓住讀者的眼球
想象一下,你走進一個擠滿人的房間,朋友向你招手--你幾乎立刻就能看到他。
這是因為“招手”這個動作在你的大腦進行深入思考之前,就已經被注意到了。
再比如當你走在熙熙攘攘的大街上,如果所有人穿的都是黑灰色的大衣,而此時有一個人穿着鮮紅色的風衣,你會看哪裏?
毫無疑問,你的目光會瞬間被那抹紅色吸引。
這就是前注意加工:我們的大腦能在極短時間內(約200-250毫秒)自動檢測到某些視覺特徵,而無需我們有
後端
wang_yb -
格式塔原理:數據可視化如何引導觀眾的注意力
在數據分析中,我們常説:“一張好的圖表勝過千言萬語。”
但很多時候,我們做出來的圖表卻是“千言萬語堵在心口難開”。讀者看了半天,抓不住重點。
這是為什麼?
因為人類的視覺感知遵循一套被稱為 格式塔(Gestalt) 的心理學原理。
簡單來説,當我們看到一組物體時,大腦會自動將它們視為一個整體或一種模式,而不是孤立的碎片。
下面我們用 Python 的 Matplotlib 庫,來演示 格式塔(Ge
後端
wang_yb -
迴歸分析全家桶(16種迴歸模型實現方式總結)
提到迴歸分析,很多人第一時間想到的只有“線性迴歸”和“邏輯迴歸”。但實際上,針對不同的數據情況(比如有離羣點、數據是計數的、數據有缺失截斷等),我們有十幾種迴歸模型可以選擇。
今天為大家總結了 16種迴歸分析 的模型,重點不是介紹這些迴歸模型的原理,而是介紹如何在Python代碼中使用這些模型,希望你以後能夠在實戰中來應用這些模型!
1. 迴歸分析全家桶
下面介紹如何使用各種迴歸模型的示例代碼,主
後端
wang_yb -
數據分析師的“水晶球”:時間序列分析
很多剛入行的小夥伴問我:“我想預測下個月公司的銷售額,或者預測一下明天的股價,該學什麼?”
我的回答通常只有六個字:時間序列分析。
如果在數據分析的世界裏有一種魔法能讓你“預知未來”,那一定就是它。
1. 什麼是時間序列?
別被名詞嚇到了。簡單來説,時間序列(Time Series)就是按時間順序排列的一組數據。
比如:
你手機裏每天的步數記錄;
某隻股票每天的收盤價;
或者是你家樓下便利
後端
wang_yb -
拒絕“憑感覺”:用迴歸分析看透數據背後的秘密
在數據分析的江湖裏,有一個絕對的核心技能,叫做迴歸分析(Regression Analysis)。
無論你是剛入行的新手,還是想要進階的老手,掌握它,你就擁有了預測未來的“水晶球”。
很多初學者一聽到“迴歸”兩個字,腦子裏全是複雜的數學公式,立刻想打退堂鼓。
別急!今天我們不講枯燥的數學推導,只講它是什麼、怎麼用,以及如何用Python代碼解決實際問題。
1. 什麼是迴歸分析?
想象一下,你正在做
後端
wang_yb -
掌握相關性分析:讀懂數據間的“悄悄話”
在數據分析的江湖裏,我們經常會聽到老闆或業務方拋出這樣的問題:
“現在的年輕人越晚睡,買護膚品是不是越瘋狂?”
“我們APP的各種優惠券,真的能提升用户的留存率嗎?”
“天氣越熱,這隻股票是不是跌得越慘?”
面對這些問題,很多新人容易犯 “憑感覺” 的錯誤:“我覺得應該有關係吧……”
數據分析不相信“我覺得”,只相信證據。 而尋找變量之間關係強弱的這個過程,就叫做相關分析。
今天,就帶大
數據庫
wang_yb -
數據點的“社交距離”:衡量它們之間的相似與差異
在數據分析的世界裏, “距離” 不僅僅是地圖上兩點之間的路程。
距離 ,本質上是衡量兩個事物 “相似度” 的尺子。
距離越近 = 相似度越高
距離越遠 = 差異越大
如果你想做用户畫像聚類、想做商品推薦系統,或者想識別信用卡欺詐交易,你首先要選對這把“尺子”。
本文將帶你全面瞭解數據分析中常用的各種距離度量,從最直觀的歐氏距離到複雜的時間序列距離。
為了方便理解,我將它們分為了五大門派。
後端
wang_yb -
搞懂“元數據”:給數據辦一張“身份證”
你是否經歷過這樣的場景:
同事發給你一個 Excel 表格,文件名叫 data_final_v2.xlsx。
你滿懷期待地打開,結果發現:
表頭是 cryptic 的英文縮寫(如 c_amt, usr_stat);
有一列全是數字 1, 0, 1, 0,你猜不出這代表“男女”還是“是否活躍”;
你根本不知道這份數據是今天的,還是上個月的過期數據。
這時候,你面對着一大堆數據,卻感到兩眼一
數據庫
wang_yb -
數據會説謊?三大推斷方法幫你“審問”數據真相
很多剛入行甚至想入行數據分析的朋友,往往會陷入一個誤區:以為數據分析就是不停地做報表、畫餅圖。
其實,數據分析的核心魅力在於 “推斷”——即見微知著。
在現實生活中,我們很難獲取“全量數據”(比如你不可能調查全國每一個人的身高),那麼,如何通過手中的“小樣本”去推測“大總體”的規律?
這就需要用到統計學中的推斷分析。
本文將結合代碼來介紹推斷分析中最常用的三大方法:參數估計、假設檢驗、非參數檢驗。
後端
wang_yb -
用樣本猜總體的秘密武器,4大抽樣分佈總結
數據分析時,我們經常需要從樣本數據推斷總體特徵。
而抽樣分佈就是連接樣本與總體的重要橋樑,如果你不理解它,就無法理解為什麼我們可以通過調查幾千人來預測全國的選舉結果,也無法理解A/B測試背後的邏輯。
本文將盡量使用大白話和Python代碼,帶你徹底搞懂抽樣分佈,並掌握最常用的四大分佈:Z分佈、T分佈、卡方分佈和F分佈。
1. 什麼是抽樣分佈
想象一下,你想了解全市高中生的平均身高,由於時間和資源限
後端
wang_yb -
Manim v0.19.1 發佈啦!三大新特性讓動畫製作更絲滑
大家好!Manim 社區剛剛發佈了 v0.19.1 版本(發佈於 12 月 1 日)。雖然這是一個小版本號更新,但裏面可是藏着幾個非常實用的新功能!
無論你是剛入坑的新手,或者已經被某些痛點折磨過的老手,這篇更新速覽都值得一看。
1. 🌟 亮點一:終於可以“固定”隨機顏色了!
以前我們在使用 random_color() 時,最大的痛點就是:每次運行腳本,生成的顏色都不一樣!
有時候你覺得
後端